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Verkettung 


1 Einleitung 


Die Nutzung von Hyperspektralbildern wurde ursprünglich vor allem in 
der Fernerkundung [34] angewendet, bei der die Erde mit hyperspektra- 
len Kameras beobachtet wird, die an Satelliten, Flugzeugen oder auch an 
Drohnen befestigt sind [6, 106]. Dabei gibt es verschiedene Anwendun- 
gen, die Nutzen aus den Informationen in den hyperspektralen Daten 
ziehen. Beispiele sind die Beobachtung von Vegetation [18, 129] sowie 
Unterstützung bei Landwirtschaft [57, 88] und Bergbau [2, 78]. 

Auch in der Industrie und in Laboren werden Hyperspektralbilder 
dank gesunkener Hardwarekosten und Weiterentwicklungen in der 
Kameratechnik genutzt. Beispiele dafür sind medizinische Anwendun- 
gen [74], die Sicherstellung der Qualität von Lebensmitteln [29, 37, 107, 
117] sowie die Materialsortierung [128]. Sie kommen zum Einsatz, wenn 
Materialeigenschaften untersucht werden, für die in Farbbildern nicht 
genug Information enthalten ist. Als optisches Verfahren haben sie den 
Vorteil, dass sie berührungslos und nicht-destruktiv sind. 

Aufgrund der Distanz zum beobachteten Objekt oder sehr kleiner Ob- 
jektstrukturen sind häufig mehrere Substanzen im Bereich eines Pixels 
vorhanden. Besteht ein Interesse an deren Anteilen, kann die spektra- 
le Entmischung eingesetzt werden. Auch die industrielle Nutzung von 
spektraler Entmischung ist denkbar, wenn es sich beim Produkt um 
kleine Einheiten handelt, sodass Stoffgemische im Bereich eines Pixels 
vorkommen. Dies wäre bspw. bei Pulvermischungen wie Backmischun- 
gen, Fertiggerichten, Medikamenten und feinem Schüttgut der Fall. 


1.1 Problemstellung 


In dieser Arbeit steht die spektrale Entmischung von Stoffgemischen im 
Mittelpunkt. Ziel der spektralen Entmischung ist es, die relativen Anteile 
der Reinstoffe aus dem Spektrum eines Stoffgemischs (Mischspektrum) 
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zu erhalten [60]. Oft werden bei der spektralen Entmischung auch die 
Spektren der Reinstoffe (Reinspektren) ermittelt. Die Reinspektren wer- 
den in dieser Arbeit als bekannt vorausgesetzt, da diese ohnehin als 
Trainingsdaten für die vorgestellten überwachten Verfahren zur spektra- 
len Entmischung benötigt werden. Um die Anteile der beteiligten Stoffe 
aus einem gemessenen Spektrum zu erhalten, nutzen klassische Ansätze 
ein Mischmodell. Dieses beschreibt, wie sich ein Mischspektrum aus den 
beteiligten Reinspektren in Abhängigkeit der relativen Anteile zusam- 
mensetzt [23]. Die Ermittlung der Anteile erfolgt durch Minimierung 
des Fehlers zwischen Modell und gemessenem Spektrum [22, 47, 49]. 

Bei den gängigen Mischmodellen, wie bspw. dem linearen Mischmo- 
dell, handelt es sich um vereinfachte Beschreibungen der Zusammenhän- 
ge [60]. Tatsächlich haben sehr viele Größen Einfluss auf das gemessene 
Spektrum [10, 43]. Beispiele sind die Winkel zwischen Oberfläche, Be- 
leuchtung und Kamera, die geometrischen Eigenschaften der Partikel 
und Schatten. Diese führen dazu, dass Reinspektren und Mischspektren 
mit gleichen Anteilen der Reinstoffe unterschiedlich ausfallen können. 
Die meisten dieser Größen sind in der Praxis oft unbekannt, sodass de- 
ren Auswirkungen als Spektrenvariabilität zusammengefasst werden. 
Diese Variabilität erschwert die spektrale Entmischung und kann bei der 
Modellierung durch zusätzliche Parameter, wie Skalierungsfaktoren für 
die Reinspektren, berücksichtigt werden [54, 132]. 

Künstliche neuronale Netze (KNN) konnten in der jüngsten Vergan- 
genheit große Erfolge erzielen [35], bspw. bei der Klassifikation und 
Segmentierung von Bildern oder der Spracherkennung [85, 105]. Einige 
Ansätze bieten auch die Möglichkeit, KNN zur Synthese von Daten zu 
nutzen [36, 51, 62]. Beim Einsatz für die spektrale Entmischung haben 
KNN den Vorteil, dass die Zusammenhänge zwischen gemessenen Spek- 
tren und den Anteilen datenbasiert gelernt werden können, ohne dass 
eine Modellierung notwendig ist. Dies gelingt nur, wenn ausreichend 
Trainingsdaten zur Verfügung stehen, was im industriellen Umfeld oft 
nicht der Fall ist, sodass sie aufwendig erstellt werden müssen. 

Die meisten KNN, die aktuell zur spektralen Entmischung eingesetzt 
werden, werden unüberwacht trainiert. Das heißt, es werden nur die 
Spektren und nicht die dazugehörigen Anteile zum Training benötigt 
(siehe Kapitel 4). Dazu wird ein Autoencoder verwendet, der im ersten Teil 
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die Spektren auf wenige Werte (Anzahl der Reinstoffe) zusammenfasst 
und daraus im zweiten Teil die Spektren rekonstruiert. Damit an der 
Engstelle tatsächlich die Anteile herauskommen, wird der zweite Teil des 
Netzes so ausgelegt, dass er einem Mischmodell entspricht, was jedoch 
eine Einschränkung darstellt. 
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In dieser Arbeit werden Verfahren vorgestellt, bei denen der Zusammen- 
hang zwischen gemessenem Spektrum und den relativen Anteilen der 
Reinstoffe überwacht aus Messdaten gelernt wird. Dazu werden Trai- 
ningsdaten benötigt, bei denen zu jedem Spektrum ein Anteilsvektor 
existiert, der die Anteile aller Reinstoffe angibt. Die zentralen Heraus- 
forderungen bei der spektralen Entmischung sind hierbei die bereits 
erwähnte Spektrenvariabilität und die Anteile als kontinuierliche Aus- 
gangsgrößen. Beides sollte durch die Trainingsdaten abgedeckt sein. 
Da es sehr aufwendig ist, reale Trainingsdaten zu erzeugen, werden 
Verfahren vorgestellt und untersucht, die basierend auf wenigen realen 
Trainingsdaten weitere erzeugen können. Dabei wird der Schwerpunkt 
auf eine Nutzung der spektralen Entmischung im industriellen Umfeld 
gelegt. Dies hat Auswirkungen auf die Beschaffenheit der Daten. Zum 
einen sind die beteiligten Reinstoffe bekannt, zum anderen wird da- 
von ausgegangen, dass ein Trainingsdatensatz mit unterschiedlichen 
Stoffgemischen mit vertretbarem Aufwand erstellt werden kann. Da- 
bei ist die Erstellung von Mischungen aufwendiger als die Anfertigung 
unterschiedlicher Aufnahmen derselben Mischung. So besitzen die unter- 
suchten Datensätze viele Einzelspektren zu jedem Anteilsvektor. Damit 
lassen sich für die gegebenen Aufnahmebedingungen die statistischen 
Eigenschaften der Spektrenvariabilität ermitteln, die in den Verfahren 
zur Datenerzeugung und Datenerweiterung genutzt werden. Die vorge- 
stellten Verfahren betrachten zwei unterschiedliche Ausgangssituationen. 
Im ersten Fall stehen nur Reinspektren zur Verfügung. Im zweiten Fall 
existiert ein Trainingsdatensatz, der auch Mischspektren beinhaltet. 
Stehen nur Mengen an realen Reinspektren zur Verfügung, werden zur 
Datenerzeugung weiterhin Mischmodelle benötigt. Hier werden zwei 
Verfahren vorgestellt, die mit Hilfe der Reinspektren für vorgegebene 
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Anteile modellbasiert Mischspektren erzeugen. Dabei wird die Spek- 
trenvariabilität der Mischspektren anhand der Spektrenvariabilität der 
vorhandenen Reinspektren abgeleitet. Die erzeugten Mischspektren wer- 
den anschließend genutzt, um ein KNN für die spektrale Entmischung 
zu trainieren. Neben der Möglichkeit der Berücksichtigung der Spektren- 
variabilität hat dieser Ansatz den Vorteil, dass die Nebenbedingungen 
(Anteile immer positiv und in Summe 1) durch die Architektur des KNNs 
erzwungen werden können. Die beiden Verfahren unterscheiden sich 
dahingehend, wie die Spektrenvariabilität der Mischspektren zustande 
kommt. Der erste Ansatz nutzt bei der Mischung der Spektren je ein zu- 
fällig ausgewähltes Spektrum jedes beteiligten Reinstoffs. Beim zweiten 
Verfahren werden die Reinspektren als normalverteilte Zufallsvektoren 
modelliert. Dabei wird eine stochastische Formulierung von Mischmodel- 
len verwendet, um die Zufallsvektoren der Mischspektren zu ermitteln. 
Einzelne Spektren sind dann zufällige Realisierungen dieser Zufallsvek- 
toren. Allerdings bleibt bei beiden Verfahren die Einschränkung durch 
ein festzulegendes Modell bestehen. 

Sind im ursprünglichen Trainingsdatensatz auch Spektren von Stoff- 
gemischen enthalten, kann damit ein KNN rein datenbasiert trainiert 
werden. Um trotz weniger echter Stoffgemische seine Leistung zu verbes- 
sern, besteht die Möglichkeit, den vorhandenen Datensatz zu erweitern 
bzw. zu augmentieren. Typischerweise wird Datenaugmentierung ge- 
nutzt, um damit Datenpunkte für bekannte Klassen zu erzeugen, die sich 
in bestimmten Eigenschaften unterscheiden, wie z. B. der Rotation bei Bil- 
dern. Damit kann eine Invarianz gegenüber dieser Eigenschaften erreicht 
werden, was vor allem bei der Klassifikation in der Bildverarbeitung sehr 
nützlich ist. 

Bei der spektralen Entmischung wäre es wünschenswert, wenn das 
verwendete KNN eine Invarianz gegenüber der Spektrenvariabilität auf- 
weisen würde. Darüber hinaus soll das KNN sinnvolle Ergebnisse für 
beliebige plausible Mischverhältnisse liefern. Diese können nicht alle 
als Trainingsdaten vorliegen, da es sich um eine kontinuierliche Aus- 
gangsgröße handelt. Um diesem Problem entgegenzuwirken, werden die 
Datensätze dahingehend erweitert, dass Daten basierend auf Anteilsvek- 
toren erzeugt werden, die nicht im ursprünglichen Trainingsdatensatz 
enthalten sind, wobei die Spektrenvariabilität berücksichtigt wird. Damit 
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sollen die kontinuierlichen Werte der Anteile besser abgedeckt werden. 
Zur Realisierung werden drei Verfahren entwickelt. 

Eines basiert auf einem Faltungsnetz, das die Anteilsvektoren als Ein- 
gangsgrößen und die Spektren als Ausgangsgrößen hat. Hier wird die 
Spektrenvariabilität ausgenutzt, wodurch für jeden Eingangswert un- 
terschiedliche Ausgangswerte zur Verfügung stehen. Damit für gleiche 
Anteilsvektoren unterschiedliche Spektren synthetisiert werden können, 
werden zusätzlich zufällige Eingangsgrößen genutzt. Die dadurch ge- 
wonnene Varianz in den Daten wirkt sich positiv auf das Training des 
generativen Faltungsnetzes aus, bei dem eine Überanpassung kaum ein 
Problem darstellt. Ein zweiter Ansatz integriert dieses Netz in ein Genera- 
tive Adversarial Network (GAN), eine Klasse von künstlichen neuronalen 
Netzen, die zur Synthese von Daten genutzt werden kann. Ein dritter An- 
satz modelliert die Spektren als Gauß-Prozesse und nutzt kleinere KNN, 
um den Zusammenhang zwischen den Anteilsvektoren, der Wellenlänge 
und den Momenten der Gauß-Prozesse abzubilden. Alle drei Verfahren 
werden mit den vorhandenen Trainingsdaten trainiert. Im Anschluss 
werden für zusätzliche Anteilsvektoren weitere Trainingsdaten erzeugt. 
Beim Verfahren, das die Spektren als Gauß-Prozesse modelliert, werden 
die Momente der Gauß-Prozesse der Mischspektren erzeugt. Die Spek- 
tren sind dann zufällig erzeugte Musterfunktionen jener Gauß-Prozesse. 

Die Auswertung erfolgt mit Hilfe eines Faltungsnetzes und einem 
Vergleich mit etablierten Verfahren der spektralen Entmischung. Das 
Faltungsnetz ist ebenfalls im Laufe dieser Arbeit entstanden und wird 
mit Daten trainiert, die mit den vorgestellten Verfahren erzeugt werden. 
So kann der Unterschied der Leistung bei der spektralen Entmischung 
ermittelt werden, wobei ein Training mit dem ursprünglichen Trainings- 
datensatz als Referenz dient. 


1.3 Gliederung der Arbeit 


Diese Arbeit ist folgendermaßen gegliedert: In Kapitel 2 werden die 
Grundlagen zur spektralen Entmischung dargestellt. Zunächst wird das 
Konzept des Hyperspektralbilds erläutert, was die Datengrundlage die- 
ser Arbeit ist. Als nächstes wird der Begriff der Reflektanz definiert. 
Bei den hier gemessenen und verarbeiteten Spektren handelt es sich 


1 Einleitung 


um Reflektanzspektren. Danach werden die verwendeten Mischmodelle 
vorgestellt. Im Anschluss wird auf die Spektrenvariabilitat eingegangen, 
bevor zum Schluss modellbasierte Verfahren zur spektralen Entmischung 
vorgestellt werden. 

In Kapitel 3 werden die Grundlagen zu KNN, dem Werkzeug zur Ver- 
arbeitung der Daten in dieser Arbeit, vorgestellt. Dabei wird zunächst 
auf maschinelles Lernen im Allgemeinen eingegangen, bevor die KNN 
genauer beschrieben werden. Es folgen Abschnitte zu spezielleren Netz- 
architekturen, die in dieser Arbeit von Bedeutung sind. 

Im Anschluss werden in Kapitel 4 bereits existierende Verfahren vor- 
gestellt, welche die spektrale Entmischung mit KNN durchfiihren, wobei 
die Unterschiede zu den hier vorgestellten Verfahren herausgestellt wer- 
den. Danach wird in Kapitel 5 die Netzarchitektur dargestellt, die hier zur 
spektralen Entmischung verwendet wird. Diese wird auch zum Vergleich 
der unterschiedlichen Datenerzeugungs- und Datenerweiterungsverfah- 
ren herangezogen. In den Kapiteln 6 und 7 werden jene Verfahren im 
Detail beschrieben. 

Eine ausführliche Auswertung der Verfahren findet sich in Kapitel 8. 
Dort werden erst die verwendeten Datensätze vorgestellt, bevor auf die 
Ergebnisse eingegangen wird. Dabei werden die Ergebnisse in zwei Teile 
gegliedert: Zuerst werden nur die durch die Augmentierungsverfahren 
erzeugten Spektren an sich bewertet. Im Anschluss werden alle Verfahren 
bezüglich ihrer Leistung bei der spektralen Entmischung bewertet und 
verglichen, bevor alle Ergebnisse noch einmal zusammengefasst werden. 

Die gesamte Arbeit wird schließlich in Kapitel 9 zusammengefasst 
und es wird ein Ausblick auf mögliche zukünftige Forschungsthemen 
gegeben. 


2 Spektrale Entmischung 


Die spektrale Entmischung ist die zentrale Anwendung dieser Arbeit. In 
diesem Kapitel werden die Grundlagen dazu vorgestellt und wichtige Be- 
griffe eingeführt. Dazu werden in Abschnitt 2.1 Darstellung und Aufnah- 
me von Hyperspektralbildern, die mit Hilfe der spektralen Entmischung 
analysiert werden, beschrieben. Im darauf folgenden Abschnitt 2.2 wird 
der Begriff der Reflektanz definiert, da es sich bei allen in dieser Arbeit un- 
tersuchten Spektren um Reflektanzspektren handelt. Danach wird in Ab- 
schnitt 2.3 das Ziel der spektralen Entmischung definiert. Im Anschluss 
werden in Abschnitt 2.4 Mechanismen vorgestellt, wie sich Spektren 
beim Vorhandensein mehrerer Stoffe in einem Pixel zusammensetzen. 
Darauf aufbauend werden Mischmodelle eingeführt, mit deren Hilfe 
die spektrale Entmischung durchgeführt werden kann. Danach wird in 
Abschnitt 2.5 näher auf die Spektrenvariabilität und ihre Ursachen einge- 
gangen. Zuletzt werden in Abschnitt 2.6 Verfahren dargestellt, mit denen 
die spektrale Entmischung durchgeführt werden kann. Dabei werden 
nur solche Verfahren vorgestellt, die die hier dargestellten Mischmodelle 
direkt zur spektralen Entmischung nutzen, und keine, die die spektrale 
Entmischung mit Hilfe von neuronalen Netzen durchführen. Letztere 
werden in Kapitel 4 vorgestellt. 


2.1 Hyperspektralbilder 


In dieser Arbeit bilden Hyperspektralbilder die Datengrundlage für die 
spektrale Entmischung. Im Gegensatz zu den gängigen RGB-Farbbildern 
mit drei Farbkanälen (Rot, Grün, Blau) besitzen Hyperspektralbilder 
eine hohe Anzahl an fein abgetasteten Wellenlängenkanälen. So ergibt 
sich für jedes Pixel eines Hyperspektralbilds ein diskretes Spektrum. In 
Abhängigkeit der Anwendung können mehrere hundert Kanäle zum 
Einsatz kommen, die vom Ultravioletten bis in den Infrarotbereich des 
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Abbildung 2.1 Oberfläche eines hyperspektralen Datenwiirfels in Falschfarben. Jedem 
Punkt des Würfels wird ein Wert zugeordnet. 


elektromagnetischen Spektrums reichen können. Damit steht, verglichen 
mit RGB-Bildern, wesentlich mehr Information für die Analyse der Mate- 
rialien in den Pixeln zur Verfügung. Eine häufig verwendete Darstellung 
für Hyperspektralbilder ist ein Datenwürfel mit zwei Kanten für die 
örtlichen Dimensionen xy, x, und einer dritten Kante für die spektrale 
Dimension A (siehe Abbildung 2.1). Die Spektren, die für jedes Pixel vor- 
liegen, können mit den Methoden der Spektroskopie verarbeitet werden. 
Die skalaren Bilder, die für jeden Wellenlängenkanal vorliegen, können 
mit den Methoden der Bildverarbeitung ausgewertet werden. Hyper- 
spektralbilder erlauben es darüber hinaus, alle Dimensionen gleichzeitig 
zu untersuchen (siehe bspw. [4, V4]). 

Hyperspektralbilder können mit verschiedenen Verfahren aufgenom- 
men werden. Zum einen wäre das Schnappschussverfahren, welches 
das vollständige Hyperspektralbild mit einer Aufnahme aufzeichnet, zu 
nennen. Darüber hinaus existieren scannende Verfahren. Dabei werden 
Hyperspektralbilder mit einer Zeilenkamera, die alle Wellenlängenka- 
näle gleichzeitig erfasst, zeilenweise aufgenommen (örtliches Scannen) 
oder mit Hilfe von Farbfiltern als Grauwertbilder für jeden Wellenlän- 
genkanal nacheinander aufgezeichnet (Scannen entlang der spektralen 
Dimension) [38]. Je nach Anforderungen (Statik der Szene, Auflösung) 
kann ein entsprechendes Verfahren gewählt werden. 
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Die in dieser Arbeit verwendeten hyperspektralen Bilder setzen sich 
aus Reflektanzspektren zusammen, auf die im nachsten Abschnitt ge- 
nauer eingegangen wird. 


2.2 Reflektanz 


Ein Reflektanzspektrum beschreibt die Reflektanz in Abhangigkeit der 
Wellenlange. Die Disziplin, die sich mit der Untersuchung von Reflek- 
tanzspektren befasst, ist die Reflektanzspektroskopie [136]. Fiir die spek- 
trale Entmischung spielt in diesem Zusammenhang auch die Theorie des 
Strahlungstransports eine wichtige Rolle, da damit die Eigenschaften von 
Partikelmischungen beschrieben werden können [13]. Darauf aufbauend 
hat sich Hapke [43] sehr ausführlich mit der Reflektanzspektroskopie im 
Bereich der Fernerkundung auseinandergesetzt. 

Die Reflektanz ist dabei die gemessene Größe, die von der Konstellation 
aus Beleuchtung, zu untersuchendem Objekt und Aufnahmeeinrichtung 
abhängt [43, Kapitel 8]. Die davon unabhängige Stoffeigenschaft wird als 
Albedo bezeichnet und beschreibt das Verhältnis zwischen gestreuter 
und einfallender Strahlungsleistung. Hier wird die über das Volumen 
gemittelte Einzelstreuungsalbedo w} € R eines Partikels eines Stoffes 
mit P 

S 
ET TSP 


verwendet. Sie ist wellenlängenabhängig und beschreibt das Verhältnis 
zwischen der Leistung des durch den Partikel gestreuten Lichts Pg € R 
und der Leistung des auftreffenden Lichts, die wiederum der Summe 
der Leistung des gestreuten Lichts und der Leistung des absorbierten 
Lichts Pa € R entspricht. Zu Gunsten der Lesbarkeit wird auf den 
Wellenlängenindex auf der rechten Seite von (2.1) verzichtet. 

Der Zusammenhang zwischen der Einzelstreuungsalbedo und der 
Reflektanz wird zunächst für die bidirektionale Reflektanz betrachtet. Die 
bidirektionale Reflektanz Iņ; , € R ist das Verhältnis zwischen der von 
der Oberfläche eines Mediums in eine bestimmte Richtung gestreuten 


(2.1) 
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Strahlung und der einfallenden kollimierten Leistung pro Flacheneinheit, 
die senkrecht zur Einfallsrichtung steht [43, Kapitel 8 und 10]: 


L L 
pee Teer (Ph) + Al Bea) HZ a) -1}. (2.2) 
Dabei ist x € R der Porositätskoeffizient und fiir 15,4 € R gilt i = 
cos (By) bzw. ı = cos (6). Dabei sind By € Rund ß € R die Winkel 
zwischen dem einfallenden Licht bzw. dem in Richtung der Kamera 
gestreuten Licht und dem Normalenvektor der Oberflache. Die Pha- 
senfunktion ® : R > R in Abhängigkeit des Phasenwinkels p € R 
zwischen einfallendem und in Richtung der Kamera gestreutem Licht 
wird zur Beschreibung von Partikeln benötigt, die nicht isotrop streu- 
en [43, Kapitel 8]. Bei der Funktion H : R? > R handelt es sich um eine 
Näherung der H-Funktion nach Subrahmanyan Chandrasekhar, die über 
eine Integralgleichung definiert ist [13]. Mit ihrer Hilfe wird hier die 
Mehrfachstreuung beschrieben. In dieser Arbeit wird daftir die Nahe- 
rung aus [43, Kapitel 8] verwendet, die eine Abweichung von maximal 


4% aufweist: 
1421 


(eee ere 
In (2.2) wurde der Oppositionseffekt vernachlässigt (siehe [43, Kapitel 9]). 
Durch diesen erscheinen Objekte bei kleinen Phasenwinkeln heller, da 
sie ihre eigenen Schatten verdecken. Dies ist fiir diese Arbeit nicht wei- 
ter relevant, da der Winkel zwischen Beleuchtung und Aufnahmeoptik 
ausreichend grof ist [82]. 

Für industrielle Anwendungen, bei denen kontrollierte Aufnahmebe- 
dingungen herrschen, spielt auch die relative Reflektanz Te € R eine 
wichtige Rolle. Sie beschreibt das Verhältnis zwischen der bidirektionalen 
Reflektanz des zu untersuchenden Mediums und der eines Reflexions- 
normals, die unter den gleichen Bedingungen (gleiche Winkel bọ und £) 
bestimmt wird. Das Reflexionsnormal sollte nicht absorbierend sein, iso- 
trop streuen und einen vernachlässigbaren Oppositionseffekt aufweisen. 
Damit ergibt sich für die relative Reflektanz: 


REED LEN 
Lea = BT an na O 
N HT HE aa) 


H(p, wa) = (2.3) 


, (2.4) 
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wobei xy und xy die Porositätskoeffizienten von Medium und Refle- 
xionsnormal sind. Bei den Spektren in den Datensätzen, die in dieser 
Arbeit verwendet werden, handelt es sich immer um relative Reflektan- 
zen. Die vorgestellten Methoden für die spektrale Entmischung können 
jedoch auch für andere Reflektanzspektren verwendetet werden. Nur bei 
Methoden, die eine Transformation in die Albedo-Domäne erfordern, 
muss die entsprechende Transformationsvorschrift genutzt werden. 


2.3 Ziel der spektralen Entmischung 


Die spektrale Entmischung findet immer dann Anwendung, wenn sich 
ein Pixel eines hyperspektralen Bilds aus den Spektren mehrerer Rein- 
stoffe zusammensetzt und deren Anteile gesucht sind. Diese gemischten 
Pixel kommen deswegen zustande, weil entweder die räumliche Auflö- 
sung des Bildsensors gering ist, wie etwa bei der Fernerkundung, oder, 
weil die beteiligten Reinstoffe klein sind [60]. 

Die Reinstoffe sind hier nicht etwa reine Stoffe, die aus nur einer che- 
mischen Verbindung oder einem Element bestehen, sondern hängen 
von der Anwendung ab. So kann für eine Aufgabenstellung eine gröbe- 
re Einteilung ausreichend sein (z. B. Wasser, Grünfläche und Gestein), 
während an anderer Stelle eine feinere nötig ist (z. B. unterschiedliche 
Minerale) [10]. 

Es wird zwischen überwachter und unüberwachter spektraler Ent- 
mischung unterschieden. Ziel der unüberwachten spektralen Entmi- 
schung ist es, aus einem in A Wellenlängenkanälen abgetasteten Spek- 
trum v € R^ die Reinspektren M = [my,...,mp] € R&P und deren 
relative Anteile a = [a1,...,ap]! € R?” zu schätzen. Dies ist nur dann 
möglich, wenn viele Spektren, die aus denselben Reinspektren in un- 
terschiedlichen Anteilen zusammengesetzt sind, verfügbar sind (z.B. 
bei einem hyperspektralen Bild). Bei der überwachten spektralen Ent- 
mischung sind die Reinspektren hingegen bekannt und das Ziel ist die 
Anteilsschätzung. In dieser Arbeit wird ausschließlich die überwachte 
spektrale Entmischung betrachtet, da die Reinspektren innerhalb der 
Trainingsdatensätze für die KNN vorhanden sind. Damit die Schätzung 
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der relativen Anteile â = [@,...,4 al Ee R? physikalisch plausibel ist, 
müssen die Nichtnegativitätsbedingung 


4,20 Vp (2.5) 


und die Normierungsbedingung 


P 
$â, =1 (2.6) 


p=1 


erfüllt sein. 

Bei der spektralen Entmischung muss also ein inverses Problem gelöst 
werden [126]. Dies kann, wie in Kapitel 5, mit einem KNN datenba- 
siert geschehen oder mit Hilfe von Mischmodellen. Die für diese Arbeit 
relevanten Mischmodelle werden in Abschnitt 2.4 vorgestellt. 


2.4 Mischmodelle 


Die Mischspektren unterscheiden sich in Abhängigkeit davon, wie die 
Reinstoffe gemischt sind. Grundsätzlich muss unterschieden werden, ob 
die Mischung in einem makroskopischen oder in einem mikroskopischen 
Maßstab stattfindet. 


2.4.1 Mischungen im makroskopischen Maßstab 


Mischungen im makroskopischen Maßstab treten dann auf, wenn Pho- 
tonen, welche ein Sensorpixel einer Kamera erreichen, von unterschied- 
lichen Reinstoffen dorthin gestreut werden (siehe Abbildung 2.2). Dies 
ist häufig in der Fernerkundung der Fall, wo die Kamera einen großen 
Abstand zum untersuchten Objekt hat. Das führt dazu, dass ein Pixel eine 
größere Fläche abdeckt, die sich wiederum aus Flächen unterschiedli- 
cher Reinstoffe zusammensetzt. Interagiert jedes Photon mit genau einem 
Reinstoff, bevor es auf den Sensor trifft, entspricht dies Abbildung 2.2(a). 
Das Mischspektrum ist die mit den Flächenanteilen gewichtete Summe 
der Spektren der Reinstoffe [43, Kapitel 10]. Das daraus resultierende 
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(a) Jedes Photon interagiert mit genau (b) Photonen interagieren auch mit meh- 
einem Reinstoff. reren Reinstoffen. 


Abbildung 2.2 Makroskopische Mischungen [22]. 


Mischmodell wird als lineares Mischmodell (LMM) bezeichnet [15, 22, 
23,60]: 


P 
v= am, =Ma. (2.7) 
p=1 


Interagieren Photonen jedoch mit mehr als einem Reinstoff, wie es 
in Abbildung 2.2(b) dargestellt ist, gilt die Annahme des LMMs nicht 
mehr [49]. Dies wird vor allem durch Mehrfachreflexion bei Oberflä- 
chen, die nicht eben sind, verursacht, wie bspw. bei der Fernerkundung 
von Wäldern oder Bauten in urbanen Regionen [22, 79]. In diesem Fall 
müssen die Spektren aller Reinstoffe, mit denen ein Photon interagiert, 
miteinander multipliziert werden. Geläufig sind dabei die bilinearen 
Mischmodelle, bei denen Photonen, die mit mehr als zwei Reinstoffen 
interagieren, vernachlässigt werden. Diese Annahme ist zulässig, da bei 
jeder Interaktion Licht absorbiert und immer weniger Licht gestreut wird. 

In dieser Arbeit werden für die spektrale Entmischung das generali- 
sierte bilineare Mischmodell (GBM) [41, 42] 


P P-1 P 
nn > My My + = 2 Ypq 4p %q Mp Om, (2.8) 
p=1 p=1 q=p+1 
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und das linear-quadratische Mischmodell (LQM) [79] 


P P P 
v=} m,a, +) ) ôp m, Om, (2.9) 
p=1 p=1q=1 


verwendet. Dabei sind y,, und ö,, die Nichtlinearitätskoeffizienten und 
© ist die elementweise Multiplikation. Für y,, = 1 Y p,q entspricht 
das GBM dem Fan-Modell (FM) [30]. Allen Modellen ist gemeinsam, 
dass zum linearen Teil (erster Summand) ein weiterer Teil hinzukommt, 
bei dem zwei Spektren elementweise miteinander multipliziert werden. 
Während der lineare Anteil die Photonen beschreibt, die mit nur einem 
Reinstoff interagieren, beschreibt der andere Teil diejenigen, die mit zwei 
Stoffen interagieren. Der Unterschied zwischen GBM, FM und LOM ist, 
dass bei letzterem auch Spektren mit sich selbst multipliziert werden 
können, was einer Mehrfachstreuung am gleichen Reinstoff entspricht. 
Außerdem sind beim LOM die Gewichte der Spektrenprodukte b, q unab- 
hängig von den Anteilen Apr während sie beim FM ausschließlich davon 
abhängen. Beim GBM hängen sie zwar von den Anteilen ab, allerdings 
sind diese mit einem Koeffizienten ‘y,, skalierbar. 


2.4.2 Mischungen im mikroskopischen Maßstab 


Mischungen im mikroskopischen Maßstab liegen vor, wenn ein Stoff- 
gemisch eine homogene Mischung aus Partikeln der Reinstoffe ist. Ein 
Photon interagiert hier mit vielen Partikeln der beteiligten Reinstoffe 
(siehe Abbildung 2.3). Die Mischung erfolgt in der Albedo-Domäne. 
Zur Modellierung müssen hier die Größen aus (2.2) bzw. (2.4) für 
die beteiligten Reinstoffe bekannt sein. Im Anschluss daran können die 
Größen für die Stoffgemische bestimmt und daraus Spektren berechnet 
werden [43, Kapitel 8]. In der Praxis sind die meisten dieser Größen 
unbekannt. Sie können bestimmt werden, indem die gleichen Objekte 
aus unterschiedlichen Winkeln beleuchtet und aufgenommen werden. 
Liegen ausreichend Messungen vor, können die restlichen Größen dar- 
aus geschätzt werden [43, Kapitel 14]. Da auch dies in der Praxis nicht 
immer möglich oder zu aufwendig ist, werden häufig Vereinfachungen 
vorgenommen. Damit ist es möglich, die Albedo in Abhängigkeit der 
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Abbildung 2.3 Mikroskopische Mischung: Photonen interagieren mit vielen Partikeln [22]. 


Reflektanz analytisch für einen festen Beleuchtungswinkel und einen 
festen Aufnahmewinkel zu berechnen. 

Von Hapke [43, Kapitel 14] wird vorgeschlagen, die Porositätskoeffizi- 
enten « zu 1 zu setzen. Gleichzeitig wird angenommen, dass die Partikel 
isotrop streuen und damit ®($) = 1 V ¢ gilt (vgl. [16, 43, 48, 84]). Damit 
ergibt sich für die relative Reflektanz (Beispiele siehe Abbildung 2.4): 

WA 


T = . 
onen) 


Häufig wird auch die Umkehrfunktion benötigt, also die Albedo in Ab- 
hangigkeit der relativen Reflektanz (mit I.) = Tea): 


(2.10) 


al 2 
+ (1 + Aig iT ei) (1 — Tet) |? = (to + 1) Te 
1+ 4il zei 


B [Go + 9° T2 
Wa = 1- 


(2.11) 
Ein Mischspektrum wird nun so modelliert, dass zunächst die Albedo 
der Mischung und im Anschluss daran mit (2.10) daraus wiederum das 
Reflektanzspektrum berechnet wird. Die Albedo eines Gemischs 
P Yp 
per apd, CAP 
w; = — (2.12) 


P Y, 


Ip-ı Ppdy 
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1,0 
—— Bo =ß=0° 
— Bo = 0°, B = 45° 
— By = 0°, B = 90° 
B — Bo = 45°, B = 90° 


Abbildung 2.4 Relative Reflektanz I’,.) in Abhängigkeit der Albedo w für unterschiedliche 
Einfallswinkel By und Streuwinkel 6 gemäß (2.10). 


hängt von den Albedos der beteiligten Reinstoffe w, „, ihren Massenan- 
teilen Y, € R, Dichten Pp E R und Partikeldurchmessern d, E€ Rab 
[16, 43]. Sind weitere Größen aus (2.2) der Reinstoffe bekannt, können 
die entsprechenden Größen, analog zur Albedo, für das Stoffgemisch 
berechnet werden [43, Kapitel 10]. 

In der Praxis können, entgegen der vorgestellten Modelle, die Spek- 
tren bei gleichen Stoffanteilen mitunter stark variieren. Dies wird als 
Spektrenvariabilität bezeichnet. 


2.5 Spektrenvariabilität 


Spektrenvariabilität hat eine große Anzahl unterschiedlichster Ursa- 
chen [10]. Eine Darstellung für die Spektrenvariabilität des Reinstoffs 
Chromoxid-Grün des Farbpulverdatensatzes (siehe Abschnitt 8.1.3) ist 
in Abbildung 2.5 zu sehen. Effekte durch die Erdatmosphäre spielen in 
der Fernerkundung, der ursprünglich verbreitetsten Anwendung der 
spektralen Entmischung, eine wichtige Rolle. Hier sind vor allem die Ab- 
sorption und die Streuung von Licht durch Moleküle (z. B. Wasserdampf) 
in der Atmosphäre zu nennen [39]. In dieser Arbeit sind diese jedoch 
nicht relevant, da der Schwerpunkt auf industriellen Anwendungen liegt. 
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Abbildung 2.5 Beispiele gemessener Spektren des Reinstoffs Chromoxid-Grün des Farb- 
pulverdatensatzes, der in Abschnitt 8.1.3 vorgestellt wird [V7]. 


Darüber hinaus sind Variationen innerhalb der Reinstoffe zu nennen. 
Dies tritt vor allem dann auf, wenn die Reinstoffe relativ grob katego- 
risiert sind. Wenn bspw. die Reinstoffe Grünfläche und bebaute Fläche 
sind, ist es naheliegend, dass eine große Spektrenvariabilität zu erwarten 
ist. Auch können die Partikeleigenschaften (vgl. Abschnitte 2.2 und 2.4.2) 
variieren und eine erhebliche Spektrenvariabilität mit sich bringen. 

Weiterhin haben auch die Beleuchtung und die Topografie der be- 
trachteten Oberfläche einen Einfluss auf die Spektren. Sind diese nicht 
konstant, führen auch sie, aufgrund variierender Winkel zwischen der 
betrachteten Oberfläche, der Beleuchtung und der Aufnahmeeinrichtung, 
zu Spektrenvariabilität (vgl. Abschnitt 2.2 und [43]). Je nach Topografie 
können auch Bereiche im Schatten liegen, was ebenfalls das Spektrum 
beeinflusst [108]. 

Die Spektrenvariabilität kann im Mischmodell bzw. bei der spektralen 
Entmischung berücksichtigt werden [10]. Bei datenbasierten Methoden 
zur spektralen Entmischung, wie sie in den Kapiteln 5 bis 7 vorgestellt 
werden, wird die Spektrenvariabilität dann berücksichtigt, wenn sie 
in den verwendeten Trainingsdaten vorhanden ist. Bei modellbasierter 
spektraler Entmischung (vgl. 2.6) kann sie durch zusätzliche Parameter 
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im Mischmodell berticksichtigt werden. Ein wichtiger Vertreter dieser 
Modelle ist das erweiterte lineare Mischmodell (ELMM) [26, 132] 


v=Md($)a, (2.13) 


wobei @ € R? die zusätzlichen Parameter zur Berücksichtigung der 
spektralen Entmischung enthält und der Operator d einen Vektor in eine 
Diagonalmatrix transformiert, wenn das Argument ein Vektor ist. Ist das 
Argument eine Matrix, wird sie in einen Vektor transformiert, dessen 
Elemente der Hauptdiagonalen der Matrix entsprechen. Die Elemente 
in @ wirken hier als Skalierungsfaktoren für je ein Reinspektrum. Damit 
können Unterschiede in Beleuchtung und Topografie modelliert werden. 

Eine Erweiterung des ELMMs ist das generalisierte lineare Mischmo- 
dell (GLMM), bei dem alle Elemente von M skaliert werden können [54]: 


v=(Mob)a. (2.14) 


Dabei ist ® € RT“ die Matrix mit den zusätzlichen Parametern, die 
für jedes Element vonM einen Skalierungsfaktor darstellen. Damit hat 
das GLMM wesentlich mehr Freiheitsgrade als das ELMM, wodurch 
es flexibler ist. Die große Parameterzahl bedeutet jedoch eine große 
Herausforderung bei der Anwendung für die spektrale Entmischung. 
Im nächsten Abschnitt werden Verfahren vorgestellt, mit denen alle 
bisher vorgestellten Mischmodelle für die spektrale Entmischung genutzt 
werden können. 


2.6 Verfahren zur spektralen Entmischung 


Bei der modellbasierten überwachten spektralen Entmischung werden 
ä und die übrigen Modellparameter solange angepasst, bis der Fehler 
zwischen dem gemessenen Spektrum und dem modellierten Spektrum 
möglichst klein ist. Dabei müssen stets die Nebenbedingungen (2.5) und 
(2.6) eingehalten werden. Meist wird hier der mittlere quadratische Fehler 


ô = arg minliv — f (M, 9)|I5 (2.15) 
8 


verwendet, wobei die Funktion f stellvertretend fiir ein beliebiges Misch- 
modell steht, während der Vektor 6 für alle bei diesem Mischmodell 
enthaltenen Parameter steht und 6 für deren Schätzung. 
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2.6 Verfahren zur spektralen Entmischung 


2.6.1 Lineare Mischmodelle 


Beim LMM wird das Optimierungsproblem (2.15) zu dem quadratischen 
Optimierungsproblem 


a = argminlv — M alls (2.16) 
a 


mit den Nebenbedingungen (2.5) und (2.6). Dieses Optimierungspro- 
blem ist stets konvex, da die Hesse-Matrix M'M positiv definit ist. Damit 
ist jedes lokale Minimum auch ein globales Minimum. Ein Verfahren, 
welches bei der spektralen Entmischung gangig ist und die Nebenbe- 
dingungen (2.5) und (2.6) miteinbezieht, ist das Fully-Constrained-Least- 
Squares-Verfahren (FCLS) [47]. Dabei wird die Lagrange-Funktion 


P 
Lia) = w- Mail =( X wi) (2.17) 
p=1 


mit dem Lagrange-Multiplikator | € R minimiert. Es handelt sich um ein 
iteratives Verfahren, bei dem negative a, und die korrespondierenden 
Reinspektren aus M entfernt werden. 

Bei den vorgestellten Erweiterungen ELMM (2.13) und GLMM (2.14) 
des LMMs wird (2.15) zu einem nichtkonvexen Optimierungsproblem. 
Drumetz etal. [27] verwenden ein iteratives Optimierungsverfahren für 
das ELMM, welches abwechselnd & und a trainiert. Die beiden Teilpro- 
bleme sind dabei konvex und es wird so lange optimiert, bis ein Abbruch- 
kriterium erreicht wird. Darauf baut das Optimierungsverfahren für das 
GLMM auf [54]. Dabei werden die Parameter ebenfalls abwechselnd 
optimiert. Ein wichtiger Unterschied besteht darin, dass im Gegensatz 
zum Optimierungsverfahren für das ELMM das Optimierungsproblem 
nicht für einzelne Spektren separierbar ist, sondern immer das ganze Hy- 
perspektralbild (der ganze Datensatz) optimiert wird. Dies ist aufgrund 
der vielen Freiheitsgrade, die das GLMM bietet, notwendig. 


2.6.2 Nichtlineare Mischmodelle 


Bei den nichtlinearen Mischmodellen GBM und LOM handelt es sich 
ebenfalls um nichtkonvexe Optimierungsprobleme. Um diese zu lösen, 
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werden unterschiedliche Ansätze vorgeschlagen [42]. In dieser Arbeit 
wird dazu das Gradientenabstiegsverfahren verwendet. Dies kommt 
auch beim Training von KNN zum Einsatz und wird in Abschnitt 3.2.3 
genauer erläutert. 

Auch mit den physikalisch motivierten Überlegungen von Hapke (2.12) 
kann eine spektrale Entmischung durchgeführt werden. Dazu wird mit 
unter den im Abschnitt 2.4.2 genannten Annahmen und für feste Winkel 
b, Bo der Zusammenhang (2.11) genutzt, um die Reflektanzspektren zu- 
nächst in die Albedo-Domäne zu transformieren. Unter den Annahmen, 
dass der mittlere Partikeldurchmesser und die mittlere Dichte der betei- 
ligten Reinstoffe ungefähr gleich groß sind, kann (2.12) weiter vereinfacht 
werden: 


P 
Wy = Ya, Wp - (2.18) 
p=1 
Dabei sind die Anteile a, die relativen Masseanteile der Reinstoffe. Da 


p 
aber eine identische Dichte für alle Reinstoffe angenommen wird, sind 


diese Anteile auch weiterhin Volumenanteile, wie bei den anderen Misch- 
modellen auch. In Vektorschreibweise wird (2.18) zu 


P 
w=) awp, (2.19) 
p=1 


worauf die Methoden zur spektralen Entmischung für das LMM aus 
Abschnitt 2.6.1 angewendet werden können. Auch wenn viele Annahmen 
getroffen werden müssen, um dieses Resultat zu erhalten, so können 
damit in der Praxis gute Ergebnisse erzielt werden [16, 48, 84]. 
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Dieses Kapitel beinhaltet die Grundlagen und Definitionen zu KNN, 
auf denen die weiteren Kapitel aufbauen. Künstliche neuronale Netze 
gehören zu den Methoden des maschinellen Lernens, welches wiederum 
ein Teilbereich der künstlichen Intelligenz ist. Sie wurden bereits 1943 
erstmals als Verknüpfungen elementarer Einheiten von McCulloch und 
Pitts beschrieben [77]. 

Hier werden in Abschnitt 3.1 zunächst die Grundlagen des maschinel- 
len Lernens dargestellt, bevor in Abschnitt 3.2 auf die Grundlagen von 
KNN eingegangen wird. In den Abschnitten 3.3, 3.4 und 3.5 werden mit 
Faltungsnetzen, GAN und Autoencodern drei für diese Arbeit wichtige 
Arten von KNN vorgestellt. 


3.1 Grundlagen des maschinellen Lernens 


Bereits 1959 beschreibt Arthur L. Samuel maschinelles Lernen als Fähig- 
keit von Computern, ohne explizite Programmierung zu lernen [111]. 
Diese Grundidee steht weiterhin im Zentrum des maschinellen Lernens. 
Modelle werden dabei nicht auf Basis physikalischer Grundlagen bzw. 
der Erfahrung von Experten aufgestellt. Stattdessen lernt ein Modell 
Zusammenhänge basierend auf seiner eigenen Erfahrung in Form von 
Beispieldaten [63]. Nach dem (erfolgreichen) Lernprozess kann es seine 
Erfahrung auf unbekannte Daten anwenden. 

Auch wenn das Konzept nicht neu ist, wurden vor allem in den letzten 
Jahren große Erfolge damit erzielt. Das liegt vor allem daran, dass zum 
einen die Rechenleistung immer weiter steigt und zum anderen Speicher 
immer günstiger wird. Besonders die Einführung von general-purpose 
computing on graphics processing units Anfang des Jahrtausends brachte 
einen großen Schub in Sachen Rechenleistung. Damit war es möglich, 
durch sogenannte single-instruction-multiple-data-Operationen ein hohes 
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Maß an Parallelisierung bei der Verarbeitung von Gleitkommazahlen auf 
Grafikkarten zu erreichen. Dies beschleunigt auch das Training und die 
Inferenz von KNN signifikant [14]. Darüber hinaus stieg auch die Anzahl 
an verfügbaren Daten. Letzteres hängt stark von der Art der Daten und 
der Anwendung ab. Während allein die Tatsache, dass viele Menschen 
ein Mobiltelefon mit Kamera besitzen, die Anzahl an digitalen Farbbil- 
dern extrem erhöht hat, müssen Daten für spezielle Anwendungen in 
der Industrie meist erst aufwendig erfasst und gekennzeichnet werden. 
Vor allem dort, wo eine Modellierung durch den Menschen besonders 
komplex ist, wie bspw. in der Bildverarbeitung oder der Verarbeitung 
von Sprache, können große Erfolge erzielt werden [19, 68, 123]. 

Wie eingangs erwähnt, beziehen Methoden des maschinellen Lernens 
ihre Erfahrung aus Daten. Dabei wird zwischen Ein- und Ausgangsdaten 
unterschieden. Beim überwachten Lernen werden sowohl die Eingangs- 
daten als auch die zugehörigen Ausgangsdaten verwendet. Ziel ist es, 
den Zusammenhang zwischen Ein- und Ausgangsdaten zu lernen, so- 
dass der Algorithmus in der Lage ist, für unbekannte Eingangsdaten 
sinnvolle Ausgangswerte zu ermitteln [130]. Überwachtes Lernen ist 
die Art des maschinellen Lernens, die in dieser Arbeit hauptsächlich 
verwendet wird. Daneben gibt es das unüberwachte Lernen, welches 
keine Ausgangsdaten benötigt, sondern mit Hilfe von Eingangsdaten ein 
statistisches Modell erlernen kann. Darüber hinaus existiert das bestär- 
kende Lernen (engl. reinforcement learning). Bei letzterem geht es darum, 
eigenständig eine Strategie zu entwickeln, die ein bestimmtes Gütemaß 
(Belohnung) maximiert [122]. 


3.1.1 Aufgabenstellungen 


Methoden des maschinellen Lernens können für unterschiedliche Aufga- 
ben herangezogen werden [35, Kapitel 5]. Für diese Arbeit sind vor allem 
die Klassifikation und die Regression relevant. Das Ziel bei der Klassi- 
fikation ist die Zuordnung eines Eingangsdatenpunkts zu einer Klasse 
oder Kategorie. Die Klassen sind diskret und es existiert eine endliche 
Menge an Klassen. Ein Beispiel für eine Klassifikationsaufgabe wäre die 
Zuordnung von Reinspektren zu den dazugehörigen Reinstoffen. 
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Bei der Regression hingegen wird einem Eingangsdatenpunkt ein 
reeller Zahlenwert oder ein Vektor mit reellen Zahlen zugeordnet: 


f:R! > RE, (3.1) 


wobeiJ € N und K € N für die Dimension des Eingangs- bzw. Ausgangs- 
datenpunkts stehen. Bei der zentralen Aufgabenstellung dieser Arbeit, 
der spektralen Entmischung, handelt es sich um ein Regressionsproblem. 
Hier wird einem Spektrum ein Anteilsvektor zugeordnet. 


3.1.2 Modellparameter 


Die Methoden des maschinellen Lernens können in parametrische und 
nichtparametrische Methoden eingeteilt werden. Da in dieser Arbeit 
keine nichtparametrischen Methoden behandelt werden, wird auf diese 
hier nicht weiter eingegangen. 

Bei parametrischen Methoden muss zunächst eine von Parametern 6 
abhängige Annahme getroffen werden, wie Ein- und Ausgangswerte 
zusammenhängen. Der Zusammenhang zwischen Ein- und Ausgangs- 
werten kann als parametrisierte Funktion fg dargestellt werden. Beispiels- 
weise kann für eine Regression ein Polynom einer bestimmten Ordnung 
angenommen werden, wobei die Koeffizienten die zu bestimmenden Pa- 
rameter sind. Die Parameter werden dann mit Hilfe von Daten bestimmt. 


3.1.3 Daten und Augmentierung 


Beim maschinellen Lernen spielt die Qualität der Daten eine entschei- 
dende Rolle. Die Beispieldaten, mit denen die Zusammenhänge erlernt 
werden, heißen Trainingsdaten, der Lernprozess wird als Training be- 
zeichnet. Beim überwachten Lernen handelt es sich bei den Trainings- 
daten um Paare aus Fin- und Ausgangsdaten {x,,,y;,} mitn E {1,...,N}. 
Dabei ist x, € R/ ein Eingangsdatenpunkt und y% € RÉ der dazu- 
gehörige wahre Ausgang (engl. ground truth). Ein Trainingsdatensatz 
X = fyi her {XY yi} besteht aus vielen dieser Datenpunktpaare. 
Diese sollten einen großen Bereich der möglichen Ein- und Ausgangs- 
werte abdecken, um repräsentativ zu sein. 
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Da Trainingsdaten oft nur sehr aufwendig gewonnen werden können 
und deswegen Trainingsdatensätze für spezielle Aufgaben (z. B. im indus- 
triellen Umfeld) recht klein ausfallen, haben sich Methoden etabliert, die 
diese kiinstlich erweitern. Der Prozess der Datensatzerweiterung wird 
als Augmentierung bezeichnet. In der Bildverarbeitung geht es dabei 
vor allem darum, bezüglich bestimmter Eigenschaften wie Rotation oder 
Skalierung Invarianzen zu erzeugen [113]. Im Zusammenhang mit KNN 
spielt die Augmentierung eine wichtige Rolle und so wurden Verfahren 
entwickelt, die systematisch nach guten Augmentierungsstrategien su- 
chen [17, 81]. Auch in dieser Arbeit wird Augmentierung benutzt, um 
zusätzliche Datenpunkte zu erzeugen, die zwischen den Anteilsvektoren 
der vorhandenen Datenpunkte liegen (siehe Abschnitt 2.3). Damit soll 
die Regression verbessert werden, sodass sie trotz endlichem Trainings- 
datensatz für Spektren mit zugehörigen unbekannten Anteilsvektoren 
sinnvolle Ergebnisse liefert. 

Viele Methoden des maschinellen Lernens besitzen Konfigurations- 
möglichkeiten. Die zugehörigen Größen werden als Hyperparameter 
bezeichnet. Beispielsweise ist die Anzahl an Schichten in einem neu- 
ronalen Netz (siehe 3.2) ein Hyperparameter. Zur Bestimmung guter 
Hyperparameter wird ein Teil der Daten nicht für das Training verwen- 
det, sondern für die Validierung aufgespart. Der sogenannte Validie- 
rungsdatensatz wird nach jedem Trainingsprozess mit unterschiedlichen 
Hyperparametern ausgewertet. In einem iterativen Prozess können so 
gute Hyperparameter gefunden werden. 

Soll eine Bewertung des trainierten Modells stattfinden, werden wei- 
tere Datenpunkte benötigt. Diese werden als Testdaten bezeichnet und 
dürfen beim Trainingsprozess nicht verwendet werden. So kann sicher- 
gestellt werden, dass das trainierte Modell nicht den Trainingsdatensatz 
auswendig gelernt hat, sondern tatsächlich abstrakte Zusammenhänge 
gelernt wurden. Nur dann war der Trainingsprozess erfolgreich und das 
Modell kann für unbekannte Eingangsdaten sinnvolle Ausgangsdaten 
liefern. 


3.1.4 Verlustfunktion 


Um die Modellparameter aus Abschnitt 3.1.2 zu bestimmen, wird eine 
Verlustfunktion (engl. loss function) oder Kostenfunktion h : R? > R 
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verwendet. Diese vergleicht den Ausgang des Modells y,, = fg(x,) € R* 
mit dem dazugehörigen wahren Wert y;, und berechnet mit Hilfe eines 
Distanzmaßes einen einzelnen Wert. Dies wird in den meisten Fällen 
nicht für einen einzelnen Datenpunkt, sondern für N Datenpunkte gleich- 
zeitig durchgeführt. Damit die Verlustfunktion dennoch in einem Skalar 
resultiert, wird meist gemittelt. Dies entspricht einer Verlustfunktion 
E:R’KN > R mit 


; we 
In) 


n=1 


N 
ya = Yb fo Xn)-¥a)- 6.2) 
n=1 


Es gilt, die Verlustfunktion während des Trainings zu minimieren, indem 
die Parameter 0 des Modells angepasst werden. Je nach Aufgabenstellung 
sind unterschiedliche Verlustfunktionen sinnvoll. Für eine Regression, 
wie die spektrale Entmischung, wird häufig der mittlere quadratische 
Fehler (engl. mean squared error, MSE) 


: (3.3) 


N 
Ise = SR >. lyn = 
n=1 


verwendet, der mit der Energie des Fehlers korrespondiert. Der MSE 
dient ebenso als Giitekriterium bei der Bewertung des Testdurchgangs. 

Eine weitere wichtige Verlustfunktion in dieser Arbeit ist die logistische 
Verlustfunktion 


N K 
. 1 er * 
hog ==> I, dvi los Ynk) + 1 - Yip)logll = Yn) (3.4) 
NK n=1k=1 


die nur für den Wertebereich zwischen 0 und 1 definiert ist. Sie wird 
haufig im Zusammenhang mit der logistischen Funktion (3.7) (Aktivie- 
rungsfunktion bei KNN) verwendet. 


3.1.5 Überanpassung und Unteranpassung 


Das wichtigste Ziel beim maschinellen Lernen ist, dass das trainierte 
Modell nicht nur mit den Trainingsdaten gute Ergebnisse erzielt, sondern 
mit Daten, die es zuvor nie gesehen hat. Diese Fähigkeit kann mit Hilfe 
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e Daten —— Modell e Daten —— Modell e Daten —— Modell 


x x x 


(a) Unteranpassung. (b) Überanpassung. (c) Gute Generalisierung. 


Abbildung 3.1 Illustration von Unteranpassung, Überanpassung und einer guten Genera- 
lisierung am Beispiel einer Regression mit eindimensionaler Ein- und Ausgangsgröße. 


des Testdatensatzes untersucht werden (siehe Abschnitt 3.1.3). Die Eigen- 
schaft, gute Ergebnisse mit bisher unbekannten Daten zu erzielen, wird 
als Generalisierung bezeichnet [35, Kapitel 5]. Es geht also darum, mög- 
lichst gut Zusammenhänge und nicht den Trainingsdatensatz auswendig 
zu lernen. Die Probleme, die dabei entstehen können, sind Unteranpas- 
sung (engl. underfitting) und Überanpassung (engl. overfitting). 

Unteranpassung tritt dann auf, wenn das Modell nicht in der Lage 
ist, die Zusammenhänge aus dem Trainingsdatensatz zu lernen. Die 
Ursache dafür ist, dass das Modell bzw. die parametrisierte Funktion 
(siehe Abschnitt 3.1.2) falsch gewählt wird und die Zusammenhänge in 
den Daten für keine Parameterkombination ausreichend gut abgebildet 
werden können. Ein Beispiel dafür wird in Abbildung 3.1(a) illustriert. 
Der sinusförmige Verlauf der Datenpunkte kann nur unzureichend mit 
einer linearen Funktion approximiert werden. Ein weiterer Grund für 
eine Unteranpassung ist eine zu kurze Trainingsdauer. 

Um dem entgegenzuwirken, muss ein komplexeres Modell bzw. eine 
komplexere Funktion angenommen werden. Dies wird auch als Erhö- 
hung der Kapazität des Modells bezeichnet [44]. Bei einer hohen Kapazi- 
tät besteht die Gefahr, dass Überanpassung auftritt. Das bedeutet, dass 
die Datenpunkte des Trainingsdatensatzes besonders gut durch das Mo- 
dell abgebildet werden, unbekannte Datenpunkte jedoch zu schlechten 
Ergebnissen führen, d.h. die Fähigkeit der Generalisierung nimmt ab. 
Ein Beispiel dafür wird in Abbildung 3.1(b) illustriert. Hier verläuft die 
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Funktion durch alle Datenpunkte, die jedoch verrauscht sind. Da das 
Rauschen zufällig auftritt, ist es unwahrscheinlich, dass die Funktion für 
unbekannte Datenpunkte passend ist. Überanpassung lässt sich vermei- 
den, indem die Kapazität des Modells nicht zu groß gewählt wird und 
das Training rechtzeitig beendet wird. Hierzu dient die Überprüfung 
mit dem Validierungsdatensatz. Während der Fehler des Trainingsdaten- 
satzes immer weiter sinkt, sofern die Kapazität ausreichend ist, steigt der 
Fehler des Validierungsdatensatzes ab einem bestimmten Punkt wieder 
an. Ein Trainingsdatensatz bestehend aus Datenpunkten, die dazu eine 
hohe Varianz aufweisen, wirkt der Überanpassung entgegen, da eine 
extrem hohe Kapazität nötig wäre, um sich an diese überanzupassen. 

Vor allem bei komplexeren Problemen, bei denen ein geeignetes Modell 
nicht einfach ersichtlich ist, ist es eine große Herausforderung, ein Modell 
zu wählen, das eine geeignete Kapazität aufweist. Gerade bei kleineren 
Datenmengen im Trainingsdatensatz tritt sonst schnell Überanpassung 
auf. In Abbildung 3.1(c) ist ein Beispiel für eine gute Generalisierung zu 
sehen. Hier wird das Rauschen ignoriert, während der Zusammenhang 
zwischen Ein- und Ausgang gut abgebildet wird. 

Im Folgenden werden die Grundlagen zu KNN dargestellt, die in 
dieser Arbeit als Methode des maschinellen Lernens verwendet werden 
und für die die bisher vorgestellten Grundlagen gelten. 


3.2 Grundlagen künstlicher neuronaler Netze 


Künstliche neuronale Netze gehören zu den parametrischen Methoden 
des maschinellen Lernens und entsprechen daher einer parametrisierten 
Funktion fg. Beim Aufstellen dieser Funktion fließen jedoch keine An- 
nahmen über den Zusammenhang zwischen Ein- und Ausgangsgrößen 
direkt ein (vgl. Abschnitt 3.1.2). Stattdessen wird ein KNN entworfen, das 
einer Funktion mit sehr vielen Parametern und damit sehr vielen Frei- 
heitsgraden entspricht. Beim Entwurf des KNNs ist es jedoch durchaus 
hilfreich, die Menge und Beschaffenheit der vorhandenen Trainingsdaten 
zu berücksichtigen. 
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Abbildung 3.2 Künstliches Neuron. 


3.2.1 Multilayer Perceptron 


Künstliche neuronale Netze bestehen aus künstlichen Neuronen. Ein 
solches ist in Abbildung 3.2 zu sehen. Es stellt eine Beziehung zwischen 
mehreren Eingangswerten x = [x1, ...,X l” € R/ und einem Ausgangs- 
wert y E R her: 


J 
v=o($ ume) = 9 (w'x +b) . (3.5) 


j=l 


Dabei sind w = [w4,...,wy]" € R/ die Gewichte des Neurons, b € R 
der Schwellenwert (engl. bias) und ọ : R > R die Aktivierungsfunktion. 

Die Neuronen können prinzipiell beliebig angeordnet sein. Diese Ar- 
beit beschränkt sich jedoch auf vorwärts gerichtete (engl. feedforward) 
Netze. Diese besitzen keine Schleifen und die Neuronen sind in Schich- 
ten angeordnet. Jedes Neuron einer Schicht ist mit allen Neuronen der 
vorhergehenden Schicht und allen Neuronen der nachfolgenden Schicht 
verbunden. Eine Schicht kann mit 


y =@ (Wx +b) (3.6) 


beschrieben werden. Dabei sind y = [y1,...,¥x]' € RË der Ausgang, 
W = [wı,..., wg]! € R die Gewichte und b = [b,,..., bg]! € RX die 
Schwellenwerte der Schicht. Die Aktivierungsfunktion @ : RK > RK 
wird elementweise angewandt. 

Sind die Gewichte W beliebig, handelt es sich um eine vollständig 
verbundene Schicht. Ein KNN, das nur aus vollständig verbundenen 
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Schichten besteht, wird als Multilayer Perceptron bezeichnet [109]. Die 
erste Schicht ist dabei die Eingangsschicht, die letzte die Ausgangsschicht. 
Alle Schichten dazwischen werden als verborgene Schichten (engl. hidden 
layers) bezeichnet. 


3.2.2 Aktivierungsfunktion 


Künstliche neuronale Netze müssen nichtlineare Aktivierungsfunktio- 
nen enthalten. Nur dann sind KNN universelle Approximatoren [93]. 
Das universelle Approximationstheorem sagt aus, dass jede stetige Funk- 
tion durch ein KNN beliebig genau approximiert werden kann, wenn es 
entsprechend ausgelegt wird. Ohne nichtlineare Aktivierungsfunktion 
wären KNN auf die Approximation linearer Zusammenhänge limitiert 
[35, Kapitel 6], da eine Verkettung linearer Operationen in einer linearen 
Operation resultiert. 

Es existieren viele Aktivierungsfunktionen, deren Wahl Teil des Ent- 
wurfs des KNNs ist. Theoretisch kann für jedes Neuron die Aktivierungs- 
funktion separat festgelegt werden, in der Praxis wird jedoch meist die 
gleiche Aktivierungsfunktion für alle Neuronen festgelegt. Eine Ausnah- 
me ist die Ausgangsschicht, die je nach Zielsetzung eine andere Aktivie- 
rungsfunktion hat. In dieser Arbeit werden die logistische Funktion 


Prog(X) Zi le~ (3.7) 
und die ReLU-Funktion (engl. rectified linear unit, [45]) 
Prey (x) = max(0,x) (3.8) 


verwendet (siehe Abbildung 3.3). Die logistische Funktion, oft auch als 
Sigmoid-Funktion bezeichnet, hat die Vorteile, dass sie stetig differen- 
zierbar ist und im Bereich zwischen 0 und 1 liegt. Letzteres ist vor allem 
fiir die Ausgangsschicht interessant, wenn der Wertebereich der Aus- 
gangsgrößen genau in diesem Bereich liegt, wie es auch in dieser Arbeit 
der Fall ist (Spektren nach Weifsbildabgleich und Anteile). Nachteilig 
sind der vergleichsweise hohe Rechenaufwand und sehr kleine Gradien- 
ten fiir betragsmäßig große Eingangsgrößen. Die Gradienten sind beim 
Training wichtig und beeinflussen die Dauer maßgeblich. Zu kleine Gra- 
dienten haben eine hohe Trainingsdauer zur Folge. Darüber hinaus steigt 
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—— logistische Funktion 
—— ReLU-Funktion 


P(x) 


Abbildung 3.3 Aktivierungsfunktionen. 


die Wahrscheinlichkeit, dass die Optimierung der Parameter in einem 
lokalen Minimum endet, welches schlechte Ergebnisse liefert. Außer der 
Aktivierungsfunktion haben jedoch noch andere Faktoren Einfluss auf 
die Größe der Gradienten (siehe Abschnitt 3.2.3). 

Die ReLU-Funktion hat einen vergleichsweise geringen Rechenauf- 
wand, außerdem ist der Gradient für positive Werte stets 1. Nachteilig 
ist jedoch, dass der Gradient für negative Eingänge den Wert 0 aufweist, 
wodurch das Training stagnieren kann: Ist bei einem Neuron einmal ein 
negativer Ausgangswert erreicht, so kann dieser Zustand nicht mehr 
verlassen werden, wenn das für alle beim Training verwendeten Da- 
tenpunkte der Fall ist. Daher empfiehlt es sich, keine zu hohe Lernrate 
(siehe Abschnitt 3.2.3) zu nutzen, wenn die ReLU-Funktion als Akti- 
vierungsfunktion verwendet wird. Ein heterogener Trainingsdatensatz 
wirkt diesem Problem ebenfalls entgegen. 


3.2.3 Training 


Beim Training eines KNNs wird ein Optimierungsproblem gelöst, bei 
dem die Verlustfunktion (3.2) minimiert wird, indem die Parameter 0 
angepasst werden. Dabei handelt es sich im Allgemeinen um ein nicht- 
konvexes Optimierungsproblem, weshalb nur lokale Minima gefunden 
werden können. In der Praxis stellt dies kein Problem dar. Im Gegen- 
teil, im globalen Minimum bezogen auf einen Trainingsdatensatz liegt 
sehr wahrscheinlich Überanpassung vor (vgl. Abschnitt 3.1.5). Mit ge- 
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eigneten Methoden ist es möglich, falls die übrigen Voraussetzungen 
stimmen (guter Datensatz, sinnvolle Netzarchitektur), ein „gutes“ loka- 
les Minimum zu erreichen. Die gängigen Verfahren zur Optimierung 
neuronaler Netze basieren auf dem Gradienten der Verlustfunktion be- 
züglich des Parametervektors 8. Letzterer setzt sich aus den Gewichten 
W und Schwellenwerten b aller Schichten des KNNs zusammen. Um den 
Gradienten effizient zu berechnen, wird die Fehlerrückführung (engl. 
backpropagation) verwendet [110]. 


3.2.3.1 Backpropagation 


An dieser Stelle werden die Grundlagen im Sinne der Lesbarkeit für einen 
Datenpunkt dargestellt. In der Praxis wird die Fehlerrückführung jedoch 
meist für viele Datenpunkte oder den ganzen Trainingsdatensatz gleich- 
zeitig durchgeführt (siehe Abschnitt 3.2.3.3). Beimehreren Datenpunkten 
werden die entsprechenden Gradienten abhängig von der Implemen- 
tierung gemittelt oder aufsummiert. Der resultierende Gradient hat in 
beiden Fällen die gleiche Richtung. Es ändert sich nur der Betrag, der 
durch die Lernrate angepasst werden kann (siehe Abschnitt 3.2.3.2). 
Ziel der Fehlerrückführung ist die Bestimmung des Gradienten 


v= Vol (fo (x),y*). (3.9) 


Dies ist bei einem Multilayer Perceptron äquivalent zur Bestimmung der 
Gradienten der Verlustfunktion beziiglich aller im KNN vorkommenden 
Gewichte W und Schwellenwerte b. Die Berechnung erfolgt mit Hilfe der 
Kettenregel, wonach für die Ableitung einer verketteten Funktion gilt: 


(fo ofa) (x) ER) FW: (3.10) 


Ubertragen auf kiinstliche neuronale Netze ergibt sich bspw. fiir eine voll- 
ständig verbundene Schicht (3.6), wobei das Argument von l zu Gunsten 
der Lesbarkeit nicht dargestellt wird: 


vI=W'p(Wx+b)oWl (3.11) 
Vl = p (Wx +b) o Gl (3.12) 
Wl = Vl Op (Wx + b)x". (3.13) 
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Bei der Ableitung der Aktivierungsfunktion nach ihrem Argument 
würde eigentlich eine Jacobi-Matrix herauskommen. Diese hat jedoch 
nur Einträge in der Hauptdiagonalen, weshalb obige Formulierung mit © 
korrekt ist. Mit Hilfe von V,l und Vw! können nun mit einem Optimierer 
(siehe Abschnitt 3.2.3.2) direkt die neuen Parameter berechnet werden. 
Während Vl als V,! an die vorherige Schicht weitergegeben wird, die 
wiederum ihrerseits die Gradienten (3.11) bis (3.13) berechnet, entspricht 
Vl dem Gradienten V,! der nachfolgenden Schicht. In der letzten Schicht 
ist vl die Ableitung der Verlustfunktion. Sind alle Gradienten der Pa- 
rameter berechnet, können mit Hilfe eines Optimierers die Parameter 
aktualisiert werden. 


3.2.3.2 Optimierer 


Die einfachste Möglichkeit, um die Parameter anzupassen, ist in Richtung 
des negativen Gradienten zu gehen [12, 73]: 


0, = 0), —a8,. (3.14) 


Dabei ist £ € N der Trainingsschritt, 89 die Initialisierung der Parameter 
und a € R* die Lernrate. Letztere ist ein Hyperparameter beim Trai- 
ning des KNNs und kann entweder konstant sein oder sich während 
des Trainings verändern. Weil in dieser Arbeit Optimierer verwendet 
werden, die intern bei der Berechnung der Gradienten Gewichtungs- 
faktoren für jeden Parameter anpassen (vgl. Adam-Optimierer), wird 
« hier bei einem konstanten Wert belassen. Die Vorgehensweise (3.14) 
wird als Gradientenabstiegsverfahren (engl. gradient descent, steepest de- 
scent) bezeichnet. Im Zusammenhang mit KNN wird dieses Verfahren 
auch als stochastisches Gradientenabstiegsverfahren bezeichnet, da der 
berechnete Gradient von den gerade benutzten Trainingsdatenpunkten 
abhängt, welche als Zufallsgröße interpretiert werden können. 

Das Gradientenabstiegsverfahren konvergiert in der Praxis oft lang- 
sam und läuft Gefahr, bei zu kleinen Gradienten zu stagnieren. Deshalb 
gibt es viele Ansätze, dies zu verbessern. Die im Zusammenhang mit 
KNN gängigen Verfahren nutzen alle nur den Gradienten und nicht 
die zweite Ableitung, die Hesse-Matrix (siehe auch [11]), da diese in 
der Fehlerrückführung vergleichsweise aufwendig zu berechnen ist. In 
dieser Arbeit wird der Adam-Optimierer (adaptive moment estimation) 
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als Erweiterung des Gradientenabstiegsverfahrens verwendet [61]. Da 
der Adam-Optimierer für jeden Parameter 0 in 0 nur von dem dazuge- 
hörigen Element 8 des Gradienten 8 abhängt, wird er zu Gunsten der 
Lesbarkeit für einen einzelnen Parameter vorgestellt. Während des Trai- 
nings wird dies für alle Parameter durchgeführt, wobei die vorgestellten 
Hyperparameter für alle Parameter gleich gewählt werden. 

Der Adam-Optimierer aktualisiert die Parameter folgendermaßen: 


u? = b1 Hia + (1-b)? (3.15) 
v? = Bu, + (1— Bo) 0? (3.16) 


VI m 

g~n n : 
1-8, yo 

Dabei ist u* € R der exponentiell gleitende Mittelwert des Gradienten, 
der mit y) = 0 initialisiert wird. Dieser führt dazu, dass vergangene 
Werte des Gradienten auch Einfluss auf die Parameteraktualisierung ha- 
ben. Dies vermeidet eine schnelle Stagnation des Trainings in Bereichen 
mit kleinem Gradienten. Dieses Konzept wird auch von weiteren Opti- 
mierern, wie dem Momentum-Optimierer [96, 121] und dem Nesterov- 
Momentum-Optimierer [25, 86], genutzt. 

Der exponentiell gleitende Mittelwert des quadratischen Gradienten 
v? ER, der mit 0% = 0 initialisiert wird, führt dazu, dass sich der Gra- 
dient einzelner Parameter vergrößert, wenn diese bei den vergangenen 
Schritten wenig verändert wurden. Auch dies hilft bei der Uberwin- 
dung flacher Bereiche der Verlustfunktion oder lokaler Minima. Das Kon- 
zept wird auch beim ADADELTA-Optimierer [140], beim ADAGRAD- 
Optimierer [28] und beim RMSProp-Optimierer [50] in ahnlicher Weise 
genutzt. Die Parameter 6, € (0,1) und ß, € (0,1) sind Hyperparame- 
ter und legen fest, wie stark sich die vergangenen Werte von u? und v? 
auswirken. Der erste Bruch in (3.17) kompensiert die Initialisierung mit 
0 bei der Mittelwertbildung. Um eine Division durch 0 zu vermeiden, 


wird in der Praxis zum Nenner des zweiten Bruchs in (3.17) eine kleine 
Zahl addiert (siehe [61]). 


6, (3.17) 


II 
= 
un 
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3.2.3.3 Batch-Größe 


Die Optimierung erfolgt in jedem Schritt für eine bestimmte Anzahl an 
Datenpunkten, die als Batch-Größe (engl. batch size) bezeichnet wird. Bei 
KNN wird meist nicht angegeben, wie viele Trainingsschritte t durch- 
geführt werden, sondern, wie oft jeder Datenpunkt des Trainingsdaten- 
satzes verwendet wird. Wird der ganze Trainingsdatensatz einmal zum 
Training verwendet, wird von einer Epoche gesprochen. 

Werden alle Datenpunkte in jedem Trainingsschritt verwendet, hat 
dies den Vorteil, dass der vollständige Trainingsdatensatz an der Berech- 
nung des Gradienten beteiligt ist und wenige Trainingsschritte benötigt 
werden. Ein Trainingsschritt entspricht dann einer Epoche. Von Nachteil 
sind die hohen Speicheranforderungen. Wird hingegen nur ein Daten- 
punkt je Trainingsschritt verwendet, sind die Speicheranforderungen viel 
geringer, jedoch entstehen hier meist Konvergenzprobleme während des 
Trainings, da sich die Verlustfunktion mit wechselndem Eingang ständig 
ändert. In der Praxis wird meist ein Kompromiss gefunden, bei dem 
in jedem Trainingsschritt eine Teilmenge an Datenpunkten verwendet 
wird [64, 72]. Sind die unterschiedlichen Datenpunkte gleichmäßig auf 
die Teilmengen verteilt, konvergiert auch dieses Verfahren, bei geringeren 
Speicheranforderungen im Vergleich zum Training mit dem gesamten 
Trainingsdatensatz. In dieser Arbeit wird zum Training in den meisten 
Fällen der gesamte Trainingsdatensatz verwendet, da die Datenpunkte 
eindimensionale Spektren sind, die wenig Speicher benötigen. 

Ist die Batch-Größe größer als 1, wird, je nach Implementierung, der 
Mittelwert oder die Summe der Gradienten, die zu den einzelnen Daten- 
punkten gehören, als resultierender Gradient verwendet. Auch wenn die 
Richtung des resultierenden Gradienten in beiden Fällen gleich ist, so 
ist der Betrag im Fall einer Summe abhängig von der Batch-Größe. Dies 
kann durch die Wahl der Lernrate « kompensiert werden. 


3.2.4 Batch-Normalisierung 


Ein Problem beim Training mehrschichtiger neuronaler Netze ist, dass 
sich mit der Änderung der Parameter der vorhergehenden Schichten die 
Eingangswerte einer Schicht ständig ändern. Damit müssen die Para- 
meter späterer Schichten immer wieder an die Parameter der vorherge- 
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henden Schichten angepasst werden. Dazu kommt, wenn nicht in jedem 
Schritt mit dem gesamten Trainingsdatensatz trainiert wird, eine An- 
derung der Eingangsgrößen aufgrund der unterschiedlichen Eingangs- 
datenpunkte. Um dem entgegenzuwirken, wird Batch-Normalisierung 
verwendet [55]. Die Batch-Normalisierung wird für jedes Neuron se- 
parat durchgeführt, weshalb es an dieser Stelle genügt, die Beziehung 
zwischen einem eindimensionalen Eingang x € R und einem eindimen- 
sionalen Ausgang y € R einer Batch-Normalisierung zu beschreiben. 
Die Batch-Normalisierung 

y=w 8; (3.18) 
OH 

wird unmittelbar vor der Aktivierungsfunktion eingesetzt, sodass hier 
y dem Eingang der Aktivierungsfunktion und x dem Ausgang eines 
Neurons entspricht. Dabei sind fip € R und ĉpg E R der Stichproben- 
mittelwert und die Stichprobenvarianz von x. Bei der Berechnung der 
beiden Größen wird zwischen vollständig verbundenen Schichten (sie- 
he 3.2.1) und Faltungsschichten (siehe 3.3.1) unterschieden. Bei vollstän- 
dig verbundenen Schichten werden die Momente auf Basis aller aktuell 
verwendeten Datenpunkte und den daraus resultierenden Werten für 
x berechnet. Bei Faltungsschichten werden sie zusätzlich auf Basis aller 
Werte auf der gleichen Merkmalskarte (siehe 3.3) berechnet. Um eine Di- 
vision durch 0 zu vermeiden, wird in der Praxis zum Nenner des Bruchs 
in (3.18) eine kleine Zahl addiert [55]. Damit haben die Zahlenwerte, 
die die darauf folgende Schicht als Eingangsgrößen bekommen, immer 
einen ähnlichen Wertebereich. Um dennoch die Aktivierungsfunktion op- 
timal nutzen zu können, werden der Gewichtungsfaktor w € R und der 
Schwellenwert b € R der Batch-Normalisierung verwendet, die analog 
zu denen der Neuronen mit dem KNN trainiert werden. Für die Inferenz 
werden ji, und ĉp basierend auf dem gesamten Trainingsdatensatz auf 
einen festen Wert gesetzt. 

Durch die Batch-Normalisierung kann eine höhere Lernrate gewählt 
werden und die Abhängigkeit von der Initialisierung der Parameter sinkt. 
Darüber hinaus wirkt die Batch-Normalisierung regularisierend [55]. Die 
Initialisierung von w und b sollte an die verwendete Aktivierungsfunkti- 
on angepasst sein, sodass flache Bereiche der Aktivierungsfunktion und 
damit kleine Gradienten vermieden werden. 
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3.3 Faltungsnetze 


Es gibt KNN, die nicht nur aus vollstandig verbundenen Schichten be- 
stehen, bei denen die Matrix W der Gewichte vollstandig besetzt ist. Statt- 
dessen nutzen sie die diskrete Faltung, weshalb diese KNN als Faltungs- 
netze (engl. convolutional neural networks, CNN) bezeichnet werden [68]. 
Die Faltungsoperation lässt sich als dünn besetzte Gewichtematrix dar- 
stellen [91, 92]. Dadurch besitzt eine Faltungsschicht, bei gleicher Ein- 
und gleicher Ausgangsgröße, wesentlich weniger Parameter als eine voll- 
ständig verbundene Schicht. Außerdem werden die gleichen Gewichte 
an unterschiedlichen Stellen verwendet, was auch als lokale Verbindun- 
gen bezeichnet wird [70]. Dadurch bleibt die Information erhalten, an 
welcher Stelle ein Merkmal auftritt (z. B. an welchem Ort bei Bildern oder 
bei welcher Frequenz bei den Spektren aus Kapitel 2). 

Vor allem in der Bildverarbeitung konnten große Erfolge mit CNN 
erzielt werden. Wichtige Aufgabenstellungen sind dabei die Klassifikati- 
on, die Detektion und die Segmentierung. Bekannte Netzarchitekturen 
aus dem Bereich der Bildverarbeitung sind das AlexNet [68], das VGG- 
Netz [116] und das ResNet [46]. Neben der Faltungsschicht spielt auch die 
Pooling-Schicht eine wichtige Rolle bei CNN. Beide werden im Folgenden 
genauer beschrieben. 


3.3.1 Faltungsschicht 


Da in dieser Arbeit vor allem eindimensionale Spektren (siehe Kapi- 
tel 2) als Daten verarbeitet werden, wird hier die Faltungsschicht für 
eindimensionale Daten vorgestellt. Diese lässt sich jedoch einfach auf 
mehrdimensionale Daten erweitern. Dazu muss ein mehrdimensiona- 
ler Faltungskern eingesetzt und die Faltung entlang aller relevanten 
Dimensionen durchgeführt werden. Bei einer Faltungsschicht wird Glei- 
chung (3.6) zu 

y=ọ(x»w+b-1). (3.19) 
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Ha |} 


Jx1 C, Filterkerne 


Abbildung 3.4 Die Faltung einer Merkmalskarte mit C, Filterkernen resultiert in genau 
so vielen Merkmalskarten am Ausgang [V7]. 


Dabei sind w € R! der Faltungskern, 1 € RE ein Vektor, bei dem alle 
Elemente eine 1 sind, und + der Faltungsoperator. Durch 


I 
a 1 l 
m=o(Saj-m +] mitj=k-50-1)+i BW 


wird dieser definiert, wie er in der Praxis in CNN genutzt wird. Dabei 
wurde zu Gunsten der Lesbarkeit die Spiegelung des Faltungskerns weg- 
gelassen. Dies wird bei CNN häufig auch in der Praxis so gemacht, da 
die Gewichte ohnehin während des Trainings gelernt werden und die 
Spiegelung damit keinen Einfluss hat. Des Weiteren werden die Faltungs- 
schichten hier so verwendet, dass die Ein- und Ausgangsdatenpunkte 
die gleiche Größe haben. Dazu wird für x eine 0 angenommen, wenn j 
außerhalb der Eingangswerte liegt (engl. zero padding): 


m4 =0 fürj<1j>]. (3.21) 


Der Ausgang einer Faltungsschicht wird als Merkmalskarte (engl. fea- 
ture map) bezeichnet. In der Praxis genügt ein einzelner Filterkern oft 
nicht. Stattdessen wird der Eingang der Schicht mit C, € R Filterkernen 
gefaltet. Jede Faltung entspricht einer Merkmalskarte am Ausgang der 
Schicht (siehe Abbildung 3.4). In tieferen Schichten sind dadurch mehre- 
re Merkmalskarten am Eingang einer Schicht vorhanden. Bei Farbbildern 
sind auch am Eingang des CNNs mehrere Merkmalskarten vorhanden, 
da die Farbkanäle als solche behandelt werden. Bei den hier untersuch- 
ten Spektren hingegen gibt es nur eine Merkmalskarte am Eingang des 
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Soll 


Jx Ce Ce X C, Filterkerne 


Abbildung 3.5 Sind C, Merkmalskarten am Eingang vorhanden, wird je Merkmalskarte 
an Ein- und Ausgang ein Filterkern benutzt. Die dazugehörige Merkmalskarte am Ausgang 
ist die Summe der gefalteten Merkmalskarten am Eingang [V7]. 


CNNs. Jede der C, € R Merkmalskarten am Eingang einer Schicht wird 
pro Merkmalskarte am Ausgang mit je einem Filterkern gefaltet. Für 
die entsprechende Merkmalskarte am Ausgang werden die Resultate 
addiert (siehe Abbildung 3.5). Für jede Merkmalskarte am Ausgang ei- 
ner Schicht gibt es genau einen Schwellenwert b, der auf alle Werte der 
Merkmalskarte addiert wird. 

Bei vielen CNN wechseln sich die Faltungsschichten mit Pooling-Schich- 
ten ab, die im nächsten Abschnitt vorgestellt werden. 


3.3.2 Pooling-Schicht 


Beim Pooling wird eine lokale Nachbarschaft einer Merkmalskarte in 
einem einzigen Wert zusammengefasst. Dabei wird das Pooling entlang 
der gleichen Dimensionen wie die Faltung durchgeführt. Die Merkmals- 
karten werden dabei separat behandelt. Die Größe der Nachbarschaft 
kann frei bestimmt werden, wobei üblicherweise ein rechteckiges Fenster 
gewählt wird. 

Es gibt unterschiedliche Möglichkeiten, die Zahlen zusammenzufas- 
sen, wie z.B. durch Bildung des Mittelwerts oder des Maximums. Letz- 
teres hat sich dabei besonders bewährt und wird als Max-Pooling [112] 
bezeichnet (Beispiel siehe Abbildung 3.6). 

Durch Pooling werden die Merkmalskarten verkleinert, was mehrere 
Vorteile mit sich bringt. Zunächst sinkt dadurch der Rechenaufwand, 
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2 x 2 Max-Pooling 


Abbildung 3.6 Zahlenbeispiel für Max-Pooling mit Fenstergröße 2 x 2 einer zweidimen- 
sionalen Merkmalskarte. 


weil in den folgenden Schichten mit kleineren Merkmalskarten gearbeitet 
wird, was die Anzahl an zu berechnenden Operationen reduziert. Der 
Speicherbedarf verringert sich ebenfalls, da die zu speichernden Merk- 
malskarten kleiner sind. Darüber hinaus wird das Netz unempfindlicher 
gegen kleine Abweichungen [71], die z. B. durch Rauschen verursacht 
werden können, wodurch eine bessere Generalisierung erzielt werden 
kann (siehe Abschnitt 3.1.5). Zuletzt wird das lokale Sichtfeld, also der 
Bereich, den ein Faltungskern abdecken kann, in den hinteren Schichten 
größer, da die Information eines größeren Bereichs auf einen kleineren 
abgebildet wird. Letzteres erlaubt die Verwendung kleinerer Filterker- 
ne, was sich wiederum positiv auf den Ressourcenbedarf auswirkt und 
ebenfalls Überanpassung entgegenwirkt. 


3.4 Generative Adversarial Networks 


Generative Adversarial Networks sind künstliche neuronale Netze, die un- 
überwacht trainiert werden und die Verteilung des Trainingsdatensatzes 
lernen [36]. Damit ist es möglich, weitere Datenpunkte zu erzeugen, die 
der gleichen Verteilung genügen. Generative Adversarial Networks bestehen 
aus zwei Teilnetzen, einem Generator G und einem Diskriminator D. Die 
Eingangsdaten des Generators sind zufallige Werte, die im Zufallsvektor 
z zusammengefasst sind. Die Eingangsdaten des Diskriminators sind 
entweder die Ausgangsdaten des Generators oder Datenpunkte x aus 
dem Trainingsdatensatz. Der Ausgang des Diskriminators ist ein Skalar, 
welches angibt, ob es sich beim Eingangsdatenpunkt um einen generier- 
ten oder einen realen handelt. Der Aufbau eines GANs wird in Abbil- 
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Zufallszahlen z 


Diskriminator D 


Abbildung 3.7 Aufbau eines GANs [V10]. Schwarze Pfeile stehen für den Datenfluss in 
Vorwärtsrichtung, grüne für die Fehlerrückführung. 


dung 3.7 dargestellt. Das Ziel des Generators ist es, Daten zu generieren, 
die den Trainingsdaten möglichst ähnlich sind, sodass der Diskriminator 
nicht zwischen echten und generierten Daten unterscheiden kann. Der 
Diskriminator versucht hingegen, in seiner Aufgabe immer besser zu 
werden. 

Die Parameter der beiden Teilnetze werden abwechselnd trainiert. Die 
Verlustfunktion beim Training des Generators lautet 


l = -F log (D(G(z,))) (3.22) 


und die beim Training des Diskriminators 


N 


n=-), [log (D(x,,)) + log (1- D(G(zn)))], (3.23) 


n=1 


wenn mit jeweils N Datenpunkten trainiert wird. Dabei ist (3.23) so zu 
verstehen, dass der erste Summand für alle realen und der zweite für alle 
generierten Datenpunkte verwendet wird und der jeweils andere ver- 
schwindet. Der beim Training vorgegebene wahre Ausgangswert 1 steht 
beim Diskriminator dafür, dass ein Datenpunkt für echt befunden wird. 
Beim Wert 0 hält der Diskriminator den Datenpunkt für generiert. Der 
tatsächliche Ausgangswert des Diskriminators ist irgendwo dazwischen. 
Die Klassifikation findet mit einer Grenze, meist bei 0,5, statt. Durch 
abwechselndes Training verbessern sich Generator und Diskriminator, 
bis im Idealfall die Daten des Generators so authentisch sind, dass der 
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Abbildung 3.8 Schematische Darstellung eines Autoencoders [V2]. 


Diskriminator nicht mehr in der Lage ist, zwischen echten und gene- 
rierten Daten zu unterscheiden, obwohl er diese Aufgabe hervorragend 
beherrscht. 


3.5 Autoencoder 


Bei Autoencodern [1, 35, 65, 76] handelt es sich ebenfalls um unüberwacht 
trainierte KNN (siehe Abschnitt 3.1). Beim Training werden identische 
Ein- und Ausgangsdaten verwendet. Meist wird ein Autoencoder mit einer 
Engstelle realisiert, die eine niedrigere Dimension als die Eingangsdaten 
hat. Der Teil des KNNs vor der Engstelle wird als Encoder bezeichnet, der 
Teil, der die Daten rekonstruiert, als Decoder (siehe Abbildung 3.8). Ziel ist 
es, eine Kompression mit möglichst wenig Informationsverlust zu errei- 
chen. Dazu wird beim Training der Fehler zwischen den Eingangsdaten 
und den im Decoder aus der komprimierten Darstellung rekonstruierten 
Daten minimiert. 

Eine wichtige Klasse von Autoencodern ist der Variational Autoenco- 
der [62]. Dabei handelt es sich um einen Autoencoder, dessen Encoder 
die Momente einer Wahrscheinlichkeitsverteilung als Ausgangsgrößen 
hat (siehe Abbildung 3.9). In der Praxis wird hier meist eine mehrdi- 
mensionale Normalverteilung verwendet, deren Elemente stochastisch 
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3 Kiinstliche neuronale Netze 


f zvas ~ N {0,J} 


Abbildung 3.9 Schematische Darstellung eines Variational Autoencoders. Dabei wird der 
Zufallsvektor Zy,p € R für die Realisierungen der Eingangsdaten des Decoders genutzt. 


unabhängig sind. Damit sind die Ausgänge des Encoders der Mittelwert- 
vektor uyag € R und die Hauptdiagonale der Kovarianzmatrix als 
Vektor oyag € RŽ. Der Decoder erhält Realisierungen der entsprechen- 
den Zufallsvariablen als Eingangsgrößen (siehe Abbildung 3.9). Solche 
KNN werden benutzt, um zusätzliche Daten zu erzeugen, die ähnli- 
che Eigenschaften wie die Trainingsdaten besitzen. Beim Training des 
Variational Autoencoders wird nicht nur der Fehler der Rekonstruktion 
minimiert. Es wird auch eine Wahrscheinlichkeitsverteilung vorgegeben, 
die im Laufe des Trainings von den Ausgangsgrößen des Encoders an- 
genommen werden soll. Dazu wird die Verlustfunktion entsprechend 
angepasst. In der Praxis wird meist die mehrdimensionale Standardnor- 
malverteilung genommen und die Erweiterung der Kostenfunktion mit 
der Kullback-Leibler-Divergenz realisiert [69]. 

Eine Erweiterung dazu wäre der conditional Variational Autoencoder [24], 
bei dem zusätzlich Bedingungen an den Decoder übergeben werden, um 
die Möglichkeiten der durch den Decoder erzeugten Daten einzugrenzen 
bzw. vorzugeben. 
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In diesem Kapitel werden bestehende Verfahren vorgestellt, die eine 
spektrale Entmischung mit Hilfe von KNN durchführen. Dabei wird 
in Abschnitt 4.1 zunächst auf unüberwacht trainierte Verfahren einge- 
gangen, worüber die meisten Arbeiten existieren. Im Anschluss werden 
Verfahren, die überwacht trainiert werden, in Abschnitt 4.2 dargestellt. 
Im Abschnitt 4.3 werden Verfahren zur Modellierung der Spektrenvaria- 
bilität und zur Augmentierung spektraler Datensätze vorgestellt. 


4.1 Unüberwachtes Training 


Damit die unüberwachten Verfahren, bei denen nur Spektren und keine 
zugehörigen Anteilsvektoren vorliegen, funktionieren, muss ein Misch- 
modell genutzt werden, da der Zusammenhang zwischen Mischspek- 
tren und Anteilsvektoren nicht aus den Daten gelernt werden kann. Die 
meisten Verfahren nutzen das LMM, wobei auch Ansätze existieren, die 
nichtlineare Mischmodelle verwenden. Der Großteil der unüberwachten 
Verfahren ist nach dem Prinzip eines Autoencoders (siehe Abschnitt 3.5) 
aufgebaut. 


4.1.1 Autoencoder 


Die Verfahren, die nach dem Prinzip eines Autoencoders aufgebaut sind, 
nutzen als Encoder ein beliebiges KNN, das als Eingang ein Spektrum 
und als Ausgang einen Anteilsvektor hat. Der Decoder hat dementspre- 
chend den Anteilsvektor als Eingang und ein rekonstruiertes Spektrum 
als Ausgang. An der Engstelle am Ausgang des Encoders wird auf diese 
Weise eine niedrigdimensionale Darstellung des Spektrums erzwun- 
gen (siehe Abschnitt 3.5), die im Allgemeinen nicht dem Anteilsvektor 
entspricht. Damit an der Engstelle gerade die Anteilsvektoren ermittelt 
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werden, wird der Decoder so ausgelegt, dass er ein Mischmodell rea- 
lisiert. Dadurch ist es mit ihm nicht möglich, eine beliebige Funktion 
abzubilden [89]. Stattdessen beinhalten seine Netzparameter die Parame- 
ter des verwendeten Mischmodells und insbesondere die Reinspektren. 
Die Sicherstellung der Nebenbedingungen (2.5) und (2.6) erfolgt durch 
entsprechende Auslegung des Encoders, wie bspw. die Verwendung einer 
Softmax-Schicht (5.2). 

Wird das LMM verwendet, lässt sich der Decoder mit einer einzel- 
nen vollständig verbundenen Schicht gemäß (3.6) realisieren, die dem 
LMM entspricht. Diese vollständig verbundene Schicht muss sich direkt 
hinter der Schicht, welche die Anteile als Ausgänge hat, befinden und 
die Anzahl der Neuronen muss der Anzahl der Wellenlängenkanäle 
entsprechen. Des Weiteren darf nach der Schicht keine nichtlineare Ak- 
tivierungsfunktion verwendet werden und der Schwellenwert b muss 
den Wert 0 haben. Wird der Autoencoder schließlich so trainiert, dass der 
Fehler zwischen dem Spektrum am Eingang und dem rekonstruierten 
Spektrum am Ausgang minimiert wird, dann entspricht die Gewich- 
tematrix W der Schicht gerade der geschätzten Reinspektrenmatrix M 
des LMMs. An der Engstelle des Autoencoders wird gleichzeitig der An- 
teilsvektor 4 des am Eingang anliegenden Spektrums geschätzt. Da mit 
Hilfe eines ganzen Datensatzes trainiert wird, wird die Gewichtematrix 
anhand aller Spektren im Datensatz ermittelt. 

Guo etal. [40] nutzen diesen Ansatz mit je einer vollständig verbunde- 
nen Schicht im Encoder und im Decoder. Dazu kommt eine zusätzliche 
Schicht zur Verringerung des Rauschens am Eingang. Das KNN wird mit 
verrauschten Spektren am Eingang trainiert, um so eine Entrauschung 
zusätzlich zur spektralen Entmischung zu lernen. Palsson etal. [90] er- 
weitern diesen Ansatz (ohne Reduzierung des Rauschens), indem mehr 
vollständig verbundene Schichten im Encoder verwendet werden. Damit 
sind mehr Freiheitsgrade gegeben, um aus den Spektren die Anteilsvek- 
toren zu berechnen. Die Rekonstruktion findet auch hier mit der oben 
beschriebenen vollständig verbundenen Schicht statt. Vijayashekhar etal. 
[133] nutzen ebenfalls einen Autoencoder, der aus einer vollständig ver- 
bundenen Schicht mit LMM im Decoder für die spektrale Entmischung 
besteht. Er wird durch einen zweiten Autoencoder in Reihe ergänzt, um 
Rauschen zu reduzieren. Die Idee dabei ist, dass der Ausgang des ersten 
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Autoencoders die vom Rauschen bereinigte Version des Eingangsspek- 
trums ist und der zweite dieses wieder für die Rekonstruktion hinzufügt. 

Auch Su etal. [119] nutzen den Ansatz, der das LMM durch den Deco- 
der realisiert. Als Encoder wird jedoch eine Kette an Autoencodern genutzt, 
die sich besonders gut für verrauschte Spektren eignet. Dies wird in einer 
weiteren Arbeit erweitert, indem am Ende ein Variational Autoencoder 
verwendet wird, der Vorteile für die Einhaltung der Nebenbedingun- 
gen bei der spektralen Entmischung mit sich bringt [120]. Hua etal. [53] 
nutzen ebenfalls den beschriebenen Decoder, wobei im Encoder nicht nur 
einzelne Spektren, sondern auch Spektren benachbarter Pixel im Hyper- 
spektralbild genutzt werden. Das KNN besteht aus zwei Strängen, von 
denen einer Einzelspektren und der andere Spektren inklusive Nachbar- 
schaft mit einer zweidimensionalen Faltung verarbeitet. In einer späteren 
Schicht werden die Ausgänge vereint. Nach dem gleichen Prinzip im De- 
coder, aber mit einem Transformer Network als Encoder, wird die spektrale 
Entmischung von Ghosh et al. [33] durchgeführt. Fang et al. [31] nutzen 
ein CNN, wobei auch hier am Ausgang eine vollständig verbundene 
Schicht für das LMM genutzt wird. Dabei wird mit Bayes’schen KNN 
gearbeitet, um Rauschen besser modellieren zu können. 

Darüber hinaus kann der Autoencoder-Ansatz mit Hilfe eines GANs 
regularisiert werden, was als Adversarial Autoencoder bezeichnet wird [75]. 
Holland und Du [52] regularisieren damit den Decoder, also die Rekon- 
struktion der Spektren. Dabei wird ein zweiteiliges Training genutzt. 
Im ersten Teil werden die Anteilsvektoren aus den Spektren berechnet, 
während die Gewichte des Diskriminators unveränderlich bleiben. Im 
zweiten Teil wird der Diskriminator berücksichtigt und die Anteilsvekto- 
ren werden aus zufälligen Zahlen erzeugt. Jin etal. [58] hingegen nutzen 
den Diskriminator, um die errechneten Anteilsvektoren zu regularisieren, 
was vor allem im Kontext der Fernerkundung sinnvoll ist. 

Auch wenn das LMM für viele Anwendungen gute Ergebnisse liefert, 
ist die Verwendung nichtlinearer Mischmodelle in vielen Fällen erfor- 
derlich (siehe Abschnitt 2.4). Auch dafür existieren Verfahren basierend 
auf dem Autoencoder-Ansatz. 

Für die Unterstützung nichtlinearer Zusammenhänge nutzen Wang 
etal. [135] zusätzliche vollständig verbundene Schichten im Decoder nach 
der Schicht, die das LMM realisiert. Als Reinspektren werden weiterhin 
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die Gewichte der vollstandig verbundenen Schicht ohne Aktivierungs- 
funktion genutzt. Allerdings kann deren Ausgang mit den zusätzlichen 
Schichten weiterverarbeitet werden, sodass zwischen Anteilsvektor und 
rekonstruiertem Spektrum kein linearer Zusammenhang mehr bestehen 
muss. Zhao etal. nutzen einen ähnlichen Ansatz mit dem Unterschied, 
dass der Ausgang der vollständig verbundenen Schicht, die das LMM 
realisiert, auf den Ausgang des Netzes addiert wird. Damit ist das rekon- 
struierte Spektrum die Summe einer linearen und einer nichtlinearen 
Komponente bezüglich der Anteile. Darüber hinaus werden im Enco- 
der sogenannte Long-Short-Term-Memory-Schichten [143] bzw. Faltungs- 
schichten genutzt [144]. 

Rasti etal. [102] nutzen den Autoencoder-Ansatz mit einer vollstän- 
dig verbundenen Schicht im Decoder. In der Verlustfunktion werden 
(2.10) und (2.11) genutzt, um die Reinspektren in die Albedo-Domäne 
zu transformieren und damit eine spektrale Entmischung nach LMM 
durchzuführen. 


4.1.2 Weitere Verfahren mit linearem Mischmodell 


Es existieren Ansätze, die auf dem LMM basieren, aber keinen Autoenco- 
der nutzen. Bei Xiong etal. [138] wird das Optimierungsproblem (2.16) 
des LMMs umformuliert, sodass es für alle Datenpunkte eines Daten- 
satzes gleichzeitig optimiert wird. Dabei ist zu beachten, dass auch die 
Reinspektrenmatrix unbekannt ist. Dieses Problem lässt sich mit der 
nichtnegativen Matrixfaktorisierung lösen, wobei alternierend die Rein- 
spektren und die Anteilsvektoren aller Datenpunkte optimiert werden. 
Xiong et al. [138] bilden dies mit einem KNN nach, wobei jede Schicht des 
KNNs einer Iteration entspricht. Dabei werden Parameter definiert, die 
trainiert werden. Auch Qian etal. [99] nutzen ein KNN, um ein iteratives 
Verfahren basierend auf dem LMM nachzubilden. Dabei entsprechen 
die einzelnen Schichten je einer Iteration. Rasti etal. nutzen im LMM 
ein KNN, das die Anteilsvektoren des ganzen Datensatzes als Funktion 
einer festen zufälligen Eingangsgröße modelliert [101, 103, 104]. 

Es wird deutlich, dass die unüberwacht trainierten Verfahren bereits 
ausführlich untersucht worden sind. Alle unüberwacht trainierten Ver- 
fahren unterscheiden sich von den Verfahren, die in dieser Arbeit vor- 
gestellt werden, dahingehend, dass sie die Reinspektren ebenfalls aus 
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den Daten ermitteln. Damit führen sie auch eine unüberwachte spektrale 
Entmischung durch. Da es sich bei den hier vorgestellten Verfahren um 
überwachte Verfahren handelt und die Reinspektren ohnehin im Trai- 
ningsdatensatz vorhanden sind, miissen diese nicht ermittelt werden. 
Überwachtes Training hat den Vorteil, dass die Mischzusammenhänge 
direkt aus den Daten gelernt werden und damit beliebig sein können. 

In Kapitel 6 dieser Arbeit werden Verfahren vorgestellt, die mit Hilfe 
von Mischmodellen Datensätze erzeugen, die für das überwachte Trai- 
ning eines CNNs für die spektrale Entmischung genutzt werden. Damit 
wird indirekt, wie bei den unüberwachten Verfahren, ein Mischmodell 
für die spektrale Entmischung mit KNN genutzt. Es wird jedoch nicht in 
die Netzstruktur integriert. Damit können nichtlineare Mischmodelle 
einfacher umgesetzt werden. 

Auch überwachtes Training wird bereits, wie im nächsten Abschnitt 
vorgestellt, für die spektrale Entmischung genutzt, wobei nicht jeder 
Ansatz ohne Mischmodell auskommt. 


4.2 Überwachtes Training 


Plaza etal. [94] nutzten bereits 2004 KNN für die spektrale Entmischung. 
Sie teilen das Problem der spektralen Entmischung in einen linearen 
und einen nichtlinearen Teil auf. Der nichtlineare Teil wird dabei mit 
Hilfe eines Multilayer Perceptrons (siehe Abschnitt 3.2.1) aus Daten gelernt. 
Später verwenden Plaza etal. [95] ein Multilayer Perceptron, welches die 
spektrale Entmischung datenbasiert durchführt. Dabei beschäftigen sie 
sich damit, welche Pixel in einem hyperspektralen Bild besonders gut 
als Trainingsdaten geeignet sind. 

Xu etal. [139] setzen KNN zur spektralen Entmischung ein. Dabei 
werden die Trainingsdaten mit Mischmodellen ähnlich wie in Kapitel 6 
erzeugt, jedoch wird die Spektrenvariabilität (anders als in der vorliegen- 
den Arbeit) nicht berücksichtigt. 

Wan etal. [134] nutzen ein KNN, welches aus Faltungsschichten und 
vollständig verbundenen Schichten besteht und damit der eindimensio- 
nalen Version des Netzes in Kapitel 5 ähnlich ist. Das lässt vermuten, 
dass die hier verwendete Netzstruktur für die spektrale Entmischung 
auch für weitere Datensätze sinnvoll ist. 
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Dariiber hinaus wird bei hyperspektralen Bildern oft eine dreidimen- 
sionale Faltung eingesetzt [124, 125, 142], wie sie beim CNN in Kapitel 5 
ebenfalls verwendet werden kann. Damit wird die Nutzung der Infor- 
mation der örtlichen Dimensionen ermöglicht. Dies ist vor allem in der 
Fernerkundung relevant und wird in dieser Arbeit nicht näher unter- 
sucht, da die verwendeten Datensätze kaum Informationen entlang der 
örtlichen Dimensionen beinhalten, weil es sich um Pulvermischungen 
handelt. Tulczyjew etal. [131] nutzen dazu eine spezielle Netzarchitektur, 
bei der es je einen Pfad mit ein-, zwei- und dreidimensionalen Faltungen 
gibt, die am Ende fusioniert werden. 

Die meisten bestehenden Verfahren beschäftigen sich damit, ein ge- 
eignetes KNN und ein geeignetes Trainingsverfahren für die spektrale 
Entmischung zu finden. In dieser Arbeit besteht der Schwerpunkt dage- 
gen darin, die Trainingsdaten zu erzeugen bzw. zu erweitern, sodass die 
KNN leichter bzw. besser trainiert werden können. Dabei wird insbeson- 
dere immer die Spektrenvariabilität miteinbezogen. 


4.3 Berücksichtigung der Spektrenvariabilität 


Die bisher vorgestellten Ansätze modellieren die Spektrenvariabilität 
nicht direkt. Bei den Verfahren, die ohne Mischmodell und nur mit Hilfe 
von Daten trainiert werden, wird sie trotzdem berücksichtigt, wenn sie 
durch die Trainingsdaten abgedeckt wird. Bei den bisher vorgestellten 
unüberwachten Verfahren wird für jeden Reinstoff ein Reinspektrum 
gelernt. Damit kommt bei gleichem geschätzten Anteilsvektor auch im- 
mer die gleiche Rekonstruktion heraus. Die Spektrenvariabilität kann 
dadurch berücksichtigt werden, dass in dem Teil, der die Anteilsvektoren 
schätzt (meist der Encoder), für unterschiedliche Spektren der gleiche 
Anteilsvektor ermittelt wird. Im Folgenden werden Verfahren vorgestellt, 
die zusätzliche Möglichkeiten nutzen, um die Spektrenvariabilität zu 
modellieren. 

Bei Zhang etal. [141] wird zusätzlich zu den Reinspektren eine Biblio- 
thek an spektralen Verläufen je Reinstoff gelernt, welche die Spektrenva- 
riabilität charakterisieren. Dabei wird das lineare Mischmodell mit einer 
gewichteten Summe dieser Verläufe erweitert. Die Gewichte werden wie 
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die Anteile geschätzt. Die Optimierung erfolgt dabei für den ganzen 
Datensatz bzw. für ein ganzes Hyperspektralbild. 

Shi et al. [114] nutzen einen Autoencoder, dessen Encoder neben dem An- 
teilsvektor auch die Momente eines Zufallsvektors als Ausgangsgrößen 
besitzt. Damit werden im Decoder Reinspektren zufällig erzeugt, womit 
die Spektrenvariabilität berücksichtigt wird. Mit dem LMM wird aus 
den Reinspektren und dem Anteilsvektor die Rekonstruktion berechnet, 
über die der Autoencoder trainiert wird. Eine Erweiterung dessen teilt den 
Decoder in einen Block je Reinstoff, von denen jeder einen Diskriminator 
für die Reinspektren [115] besitzt. Durch diese GAN-Struktur sollen die 
Reinspektren möglichst authentisch aus den Daten gelernt werden. Au- 
ßerdem werden hier nicht einzelne Pixel, sondern Bereiche um die Pixel 
miteinbezogen. 

Borsoi et al. [7] nutzen einen Variational Autoencoder, um die Reinspek- 
trenvariabilität zu modellieren. Dazu nutzen sie vorhandene Reinspek- 
trenmengen. Diese Modellierung wird dann genutzt, um neue Rein- 
spektren zu erzeugen und die vorhandenen Reinspektrenmengen zu 
erweitern [8, 9]. 

Die Verfahren, die in Kapitel 7 erarbeitet werden, erweitern ebenfalls 
Datensätze unter Berücksichtigung der Spektrenvariabilität. Im Gegen- 
satz zu bestehenden Verfahren erfolgt die Erweiterung nicht nur für die 
Reinspektren, sondern auch für Mischspektren. Dabei können Anteils- 
vektoren vorgegeben werden, für die neue Spektren erzeugt werden, 
wobei eine stochastische Komponente die Spektrenvariabilität berück- 
sichtigt. Dies ist notwendig, da die Erzeugung von realen Stoffgemischen 
für einen Trainingsdatensatz meist mit viel Aufwand verbunden ist. Auch 
bei der modellbasierten Datenerzeugung in Kapitel 6 wird die Spektren- 
variabilität durch eine stochastische Komponente realisiert. 
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In diesem Kapitel wird ein CNN vorgestellt, das im weiteren Verlauf der 
Arbeit zur Bewertung der Verfahren aus den Kapiteln 6 und 7, welche die 
Erzeugung bzw. Erweiterung der Trainingsdatensätze beinhalten, ver- 
wendet wird. Dieses Netz ist zunächst fiir die Detektion von Reinstoffen 
in Mischungen [V3] und später für die spektrale Entmischung [V4] vor- 
gestellt worden. Darüber hinaus wird es in späteren Veröffentlichungen 
zur Bewertung der Augmentierungs- und Datenerzeugungsverfahren 
genutzt [V6-V10]. Das vorgestellte CNN bringt Eigenschaften mit sich, 
die es für die spektrale Entmischung geeignet machen. Es hat sich in 
Kombination mit den in Kapitel 8 verwendeten Datensätzen bewährt, 
aber nicht den Anspruch, für alle spektralen Datensätze gute Ergeb- 
nisse bei der spektralen Entmischung zu liefern. Allerdings kann für 
weitere Datensätze, basierend auf den hier vorgestellten Prinzipien, ein 
geeignetes Netz ermittelt werden. 

Das CNN ist in der Lage, Hyperspektralbilder direkt als dreidimensio- 
nale Datenwürfel zu verarbeiten, kann jedoch auch für einzelne Spektren 
verwendet werden. In dieser Arbeit wird es für einzelne Spektren ver- 
wendet, da die untersuchten Datensätze wenig Information entlang der 
räumlichen Dimensionen enthalten [V4]. Darüber hinaus werden bei 
der Erzeugung und Augmentierung der Datensätze nur die spektralen 
Eigenschaften herangezogen. Da die Spektrenvariabilität über zufällige 
Komponenten modelliert wird, ist eine Zuordnung einzelner Spektren 
zu einem bestimmten Ort auch nicht möglich. Im Allgemeinen kann es 
bei Hyperspektralbildern jedoch durchaus lohnend sein, diese Informa- 
tionen miteinzubeziehen [3, 124, 125, 131, 142]. 

In Abschnitt 5.1 wird das Netz für dreidimensionale Eingangsdaten 
vorgestellt. Für die Verwendung mit Spektren als Eingangsdaten müssen 
nur Parameter entsprechend gewählt werden, worauf in Abschnitt 5.3 
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eingegangen wird. Für die spektrale Entmischung spielt das Einhalten 
der Nebenbedingungen (2.5) und (2.6) eine wichtige Rolle. Wie diese 
tiber die Wahl der Ausgangsschichten erreicht werden kann, wird in 
Abschnitt 5.2 beschrieben. 


5.1 Netzarchitektur 


Anders als bei der Klassifikation von Bildern, wo die etablierten CNN, 
wie z. B. das AlexNet [68], das VGG-Netz [116] und das ResNet [46], große 
Erfolge erzielt haben, gibt es im Bereich der spektralen Entmischung 
oft nur wenig Trainingsdaten. Diese reichen nicht aus, um die große 
Anzahl der benötigten Parameter jener Netze ohne Überanpassung zu 
trainieren. Zusätzlich sind die Datenpunkte Spektren und damit im 
Vergleich zu Farbbildern kleiner. Darüber hinaus fallen die Merkmale 
eines eindimensionalen Spektrums weniger komplex aus. Aus diesen 
Gründen ist die Verwendung eines kleineren CNNs notwendig [81, 127]. 

Das vorgestellte CNN besteht, ähnlich wie AlexNet [68] und das VGG- 
Netz [116], aus zwei Teilen: Im ersten Teil befinden sich Faltungsschich- 
ten zum Herausarbeiten der Merkmale, während sich im zweiten Teil 
vollständig verbundene Schichten befinden, die die Merkmale auf die 
Ausgangsgrößen, in dieser Arbeit die relativen Anteile, abbilden. 

Das CNN hat als Eingangsdaten hyperspektrale Datenwürfel. Die Aus- 
gangsdaten beinhalten jeweils P Intensitätsbilder, eines für jeden Rein- 
stoff. Diese haben die gleiche örtliche Auflösung wie die Eingangsdaten 
und geben jeweils für jedes Pixel die relativen Anteile der enthaltenen 
Reinstoffe an. 

Der erste Teil besteht aus Faltungsschichten (siehe Abschnitt 3.3.1), 
die eine dreidimensionale Faltung durchführen (siehe Abbildung 5.1). 
Dadurch können Merkmale extrahiert werden, die nicht nur einzelne 
Spektren betreffen, sondern auch deren Nachbarschaft. Es können zu- 
sätzlich örtliche Merkmale extrahiert werden. Abhängig von der Größe 
der Merkmale ist die Größe der Faltungskerne zu wählen. Nach der Fal- 
tung folgt eine Batch-Normalisierung (siehe 3.2.4) und die logistische 
Aktivierungsfunktion (siehe 3.2.2). Letztere hat in den Experimenten bei 
der spektralen Entmischung bessere Ergebnisse geliefert als die ReLU- 
Funktion. Dies führt zwar zu einer längeren Trainingsdauer, jedoch fällt 
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Abbildung 5.1 Ein Block des ersten Teils des CNNs: Eine dreidimensionale Faltung 
(rot) kombiniert mit Max-Pooling entlang der spektralen Dimension (braun) [V4]. Für eine 
übersichtlichere Darstellung werden nur eine Merkmalskarte und ein Faltungskern gezeigt. 


diese bei den hier verwendeten kleinen Datenmengen dennoch nicht 
sehr lang aus. Das liegt vermutlich daran, dass die Anteilsvektoren als 
Ausgangsgrößen kontinuierliche Werte annehmen können. Während die 
logistische Aktivierungsfunktion stetig differenzierbar ist, besitzt die 
ReLU-Funktion einen Knick (siehe Abbildung 3.3). 

Nach der Aktivierungsfunktion folgt eine Max-Pooling-Schicht (sie- 
he Abschnitt 3.3.2). Das Max-Pooling erfolgt nur entlang der spektralen 
Richtung. Dadurch bleibt die örtliche Auflösung der hyperspektralen 
Bilder erhalten, was eine ortsaufgelöste Angabe der relativen Materi- 
alanteile am Ausgang möglich macht. Nach der Max-Pooling-Schicht 
folgt die nächste Faltungsschicht und ein neuer Block des ersten Teils 
beginnt. Am Ausgang des ersten Teils liegen mehrere dreidimensionale 
Merkmalskarten vor. 

Die dreidimensionalen Merkmalskarten werden am Eingang des zwei- 
ten Teils entlang der spektralen Dimension in einzelne zweidimensionale 
Merkmalskarten aufgeteilt. Daraus resultieren viele zweidimensionale 
Merkmalskarten, deren Anzahl dem Produkt aus der Anzahl der dreidi- 
mensionalen Merkmalskarten und deren Länge in spektraler Dimension 
entspricht (siehe Abbildung 5.2). Auf diese zweidimensionalen Merk- 
malskarten wird eine 1 x 1-Faltung angewendet. Dabei findet aufgrund 
der Größe des Faltungskerns keine eigentliche Faltung statt, jedoch wer- 
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Abbildung 5.2 Datentransformation zwischen erstem und zweitem Teil des neuronalen 
Netzes (3D > 2D) gefolgt von einer Schicht des zweiten Teils: Eine vollständig verbundene 
Schicht entlang der spektralen Dimension (grün) [V4]. Für eine übersichtlichere Darstel- 
lung wird im Dreidimensionalen nur eine Merkmalskarte und im Zweidimensionalen ein 
Faltungskern gezeigt. 


den weiterhin die Merkmalskarten, wie in Abschnitt 3.3.1 beschrieben, 
verarbeitet. Damit ist hier eine 1 x 1-Faltung effektiv eine vollständig 
verbundene Schicht entlang der spektralen Dimension. Dabei werden 
für alle Pixel des hyperspektralen Bilds die gleichen Gewichte verwen- 
det. Dadurch bleibt die örtliche Auflösung erhalten. Darüber hinaus 
ergibt sich der Vorteil, dass das CNN unabhängig von der örtlichen 
Auflösung der Eingangsdaten ist. Damit können die Testdaten eine an- 
dere örtliche Auflösung haben als die Trainingsdaten, was in der Praxis 
nützlich sein kann. Wird hingegen die Anzahl der Wellenlängenkanä- 
le geändert, muss das Netz neu trainiert werden. Unter Verwendung 
der gleichen Aufnahmeeinrichtung ist dies jedoch in der Praxis selten 
notwendig, da Anzahl und mittlere Wellenlänge der Wellenlängenka- 
näle in der Regel gleich bleiben. Auch im zweiten Teil wird nach einer 
1x 1-Faltung die Batch-Normalisierung durchgeführt, gefolgt von einer 
logistischen Aktivierungsfunktion. Etwas abweichend dazu werden die 
letzten Schichten gestaltet. 


5.2 Erzwingen der Nebenbedingungen 


Die Schichten am Ausgang des CNNs können so gestaltet werden, dass 
die Nebenbedingungen (2.5) und (2.6) immer erfüllt sind und nicht zu- 
sätzlich bei der Minimierung der Verlustfunktion während des Trainings 
beachtet werden müssen. Dazu wird nach der letzten 1 x 1-Faltungs- 
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schicht ebenfalls eine logistische Aktivierungsfunktion verwendet, wo- 
durch die Ausgangsgrößen immer die Nichtnegativitatsbedingung (2.5) 
erfüllen. Die Normierungsbedingung (2.6) kann mit Hilfe einer zusätzli- 
chen Normierungsschicht 


a so für p =1,2,...,P (5.1) 


am Ausgang des CNNs erzwungen werden. Dabei ist ä, € R der Wert 
vor der Normierungsschicht, der mit dem p-ten Reinstoff korrespondiert. 
Die Normierung wird für jedes Pixel des hyperspektralen Bilds separat 
durchgeführt, weshalb in (5.1) auf die Ortsindizes verzichtet werden 
kann. Alternativ hätten beide Nebenbedingungen auch mit Hilfe einer 
Softmax-Schicht 


efr + 
apy = =p. ae fur p= 125.23, (5.2) 


2-1 e”? 

erzwungen werden können. Allerdings hat sich gezeigt, dass sich dies 
negativ auf das Training auswirkt [V4]. Dies liegt vermutlich daran, dass 
kleine Eingangsänderungen in (5.2) durch die Exponentialfunktionen 
zu großen Ausgangsänderungen führen, was zu Oszillationen um das 
Optimum führen kann. 


5.3 Einzelne Spektren als Eingangsdaten 


Um das CNN für einzelne Spektren als Eingangsdaten zu verwenden, 
müssen die Dimensionen der Filterkerne der dreidimensionalen Fal- 
tungsschichten im ersten Teil entsprechend gewählt werden. Konkret 
dürfen sie in Richtung der örtlichen Dimensionen nur eine Größe von 1 
aufweisen. In spektraler Richtung müssen sie weiterhin eine Größe ha- 
ben, die größer als 1 ist, da ansonsten keine Faltung stattfindet. Wird 
dies beachtet, so werden die Spektren unabhängig voneinander, jedoch 
mit den gleichen Gewichten, verarbeitet. Aufgrund der Netzstruktur ist 
es daher unerheblich, ob die Spektren als einzelne Datenpunkte oder 
weiterhin als Hyperspektralbilder eingegeben werden. Wichtig ist dabei, 
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Eingang 

3x 
| 
i Faltung l Batch-Normalisierung 
| | 
l | 
| 

I 
i Batch-Normalisierung logistische Aktivierungsfunkt. 
l 
l | 
l | 
| \4 | 
| | logistische Aktivierungsfunkt. i vollst. verbundene Schicht 
I | 
i | 
| 
l | 
Max-Pooling logistische Aktivierungsfunkt. 
| | 
vollst. verbundene Schicht Normierungsschicht 


Ausgang 


Abbildung 5.3 Netzstruktur des CNNs für die spektrale Entmischung, welche im weiteren 
Verlauf der Arbeit zur Auswertung der Datenerzeugung und Augmentierung verwen- 
det wird. 


dass die Ausgangsdaten das entsprechende Format besitzen. Werden 
die Spektren als einzelne Datenpunkte behandelt, entsprechen die 1 x 1- 
Faltungen im zweiten Teil des CNNs vollstandig verbundenen Schichten. 
Der Aufbau des Netzes mit allen Schichten ist in Abbildung 5.3 zu se- 
hen, wobei hier die Anzahl der sich wiederholenden Blécke derjenigen 
entspricht, die im späteren Verlauf dieser Arbeit für die Auswertung 
verwendet wird. Diese ist in Experimenten als Hyperparameter ermittelt 
worden (siehe Abschnitt 3.1.3). 

Auch Wan etal. [134] nutzen unter Verwendung anderer Trainingsda- 
ten eine ähnliche Netzstruktur, was zeigt, dass diese nicht nur für die in 
Kapitel 8.1 vorgestellten Datensätze sinnvoll ist. Im Gegensatz zur hier 
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vorgestellten Netzstruktur werden dort nur zwei Faltungsschichten und 
eine vollstandig verbundene Schichten genutzt. 

In den Kapiteln 6 und 7 werden nun Methoden vorgestellt, mit denen 
die Trainingsdaten fiir das hier vorgestellte CNN erzeugt bzw. erweitert 
werden können. 
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Trainingsdatenerzeugung aus 
Reinspektren 


In diesem Kapitel werden zwei Verfahren zur Erzeugung von Trainings- 
daten vorgestellt, die mit wenigen verfügbaren realen Daten auskommen. 
Je nach verwendetem Mischmodell werden nur die Reinspektren oder 
zusätzlich einige Mischspektren benötigt. Letztere sind erforderlich, um 
Parameter bei nichtlinearen Mischmodellen zu ermitteln. Wichtig ist, 
dass von den Reinspektren jeweils eine Menge verfügbar sein muss, um 
die Spektrenvariabilität modellieren zu können. Die Menge 


Mp = {mp1 mps} (6.1) 


enthält S Spektren des p-ten Reinstoffs. Dieses Szenario ist in einem in- 
dustriellen Umfeld nicht unüblich, wo die beteiligten Reinstoffe bekannt 
sind, von denen Spektren als Trainingsdaten aufgenommen werden kön- 
nen. Vorteil ist, dass nur wenige Stoffgemische für die Aufnahme von 
Mischspektren erzeugt werden müssen. 

Die Grundidee ist für beide Verfahren die gleiche: Es werden mit Hilfe 
von Mischmodellen, die in Abschnitt 2.4 vorgestellt werden, Mischspek- 
tren erzeugt, mit denen dann ein KNN für die spektrale Entmischung 
trainiert werden kann. Die Erzeugung von Trainingsdaten mit Mischmo- 
dellen wird bereits von Xu etal. [139] genutzt, jedoch ohne die Model- 
lierung der Spektrenvariabilität. Die hier vorgestellte Vorgehensweise 
hat zwei Vorteile, verglichen mit der direkten Anwendung der Misch- 
modelle, die in Abschnitt 2.6 beschrieben wird. Zum einen wird dabei 
die Spektrenvariabilität modelliert und kann vom KNN berücksichtigt 
werden. Zum anderen können die Nebenbedingungen (2.5) und (2.6) 
durch die Netzarchitektur erzwungen werden (siehe Abschnitt 5.2). 
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Beim ersten Verfahren in Abschnitt 6.1 werden bei der Erzeugung eines 
Spektrums eines Stoffgemisches die dafiir verwendeten Reinspektren 
zufällig aus den Reinspektrenmengen M, ausgewählt. Beim zweiten 
Verfahren in Abschnitt 6.2 werden die Reinspektren als normalverteilte 
Zufallsvektoren modelliert, die über ihre Momente beschrieben werden 
können. Mit Hilfe der Mischmodelle werden die Momente der Misch- 
spektren berechnet, die ebenfalls als normalverteilte Zufallsvektoren 
beschrieben werden. Trainingsdaten werden daraus durch das Erzeugen 
von Realisierungen generiert. 


6.1 Zufällige Reinspektrenwahl 


Das hier vorgestellte Verfahren ist bereits veröffentlicht [V6] worden. Im 
Unterschied zur Veröffentlichung werden in Kapitel 8 teilweise andere 
Datensätze zum Training und Test verwendet, damit eine Vergleich- 
barkeit mit den anderen hier vorgestellten Verfahren gewährleistet ist. 
Außerdem sind in der Veröffentlichung keine Mischungen in der Albedo- 
Domäne durchgeführt worden (siehe Abschnitt 2.4.2). 

Bei diesem Verfahren wird das CNN für die spektrale Entmischung 
aus Kapitel 5 mit den künstlich erzeugten Spektren trainiert. Dabei wer- 
den die Spektren während des Trainings und nicht im Vorfeld erzeugt. 
Dadurch wird weniger Speicher (vor allem auf der Grafikkarte) benötigt, 
in dem andernfalls alle erzeugten Spektren vorgehalten werden müssten. 
Vorgegeben werden nur die Anteilsvektoren a und je eine Menge an 
Reinspektren M,, für jeden der P enthaltenen Reinstoffe. 

Die Anteilsvektoren sind hier also sowohl Eingangs- als auch Aus- 
gangsdaten. Vor der ersten Schicht werden daraus mit Hilfe der Misch- 
modelle aus Abschnitt 2.4 die Trainingsdaten erzeugt. Die dafür benötig- 
ten P Reinspektren m,, werden für jede Mischung aus den jeweiligen 
Reinspektrenmengen M p zufällig ausgewählt. Dazu wird der Index s 
für jedes Reinspektrum als Realisierung einer diskreten gleichverteilten 
Zufallsvariablen s ~ U {1, S} behandelt. 

Um die Batch-Größe zu erhöhen, können auch für jeden Anteilsvektor 
mehrere Spektren in einem Schritt erzeugt werden. Durch das zufällige 
Ziehen der Reinspektren weisen auch die berechneten Mischspektren 
eine Spektrenvariabilitat auf. Eine Einteilung in Epochen ist hier schwie- 
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rig, da durch die zufällige Ziehung der Reinspektren das CNN fast im- 
mer neue Daten zum Training erhält. Deshalb wird hier eine Epoche 
als Trainingsabschnitt definiert, bei dem aus allen vorgegebenen Misch- 
verhältnissen einmal Spektren erzeugt werden. Da über viele Epochen 
trainiert wird, werden dem CNN viele Realisierungen der Spektren für 
die vorgegebenen Mischverhältnisse präsentiert. 

Bei den Trainingsdaten, die mit dem LMM (2.7) erzeugt werden, ergibt 
die Summe der Vorfaktoren im Mischmodell durch die Normierungs- 
bedingung bereits 1. Dies gilt auch für eine Mischung in der Albedo- 
Domäne. Dort werden vor der Mischung mit dem LMM alle Reinspek- 
trenmengen mit (2.11) in die Albedo-Domäne überführt. Im Gegensatz 
dazu ergibt die Summe der Vorfaktoren beim FM, beim GBM und beim 
LOM nicht 1. Um dies zu erreichen, werden Spektren, die mit FM oder 
GBM erzeugt werden, mit 


P-1 P -1 
+2 > vate (6.2) 


p=1 q=p+1 


multipliziert und solche, die mit dem LQM erzeugt werden, mit 


P P =1 
[ Bo én | (63) 


p=1g=1 


Diese Normierung ist sinnvoll, da das Licht, welches zum linearen Anteil 
beiträgt, nicht zusätzlich zum bilinearen Anteil beitragen kann [83, 100]. 
Damit sind für Ypq und Sng Werte größer als 1 plausibel. 

Die Mischmodelle GBM und LOM besitzen Nichtlinearitätskoeffizi- 
enten, die vorgegeben werden müssen. In dieser Arbeit wird dafür ein 
Wert für alle Reinspektrenkombinationen verwendet, was zwar eine 
Einschränkung darstellt, jedoch in der Praxis gut funktioniert und den 
Vorteil hat, nicht zu viele Freiheitsgrade einzuführen. So gilt für alle 
p und q: Ypg = y und ö,, = Ô. Für die Bestimmung geeigneter Wer- 
te ist ein kleiner Validierungsdatensatz, der aus einigen Spektren von 
Stoffgemischen besteht, erforderlich. 
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6.2 Modellierung als normalverteilte 
Zufallsvektoren 


Das in diesem Abschnitt vorgestellte Verfahren ist bereits veröffentlicht 
worden [V9]. Im Gegensatz zur Veröffentlichung wird in dieser Arbeit 
die vollständige Herleitung der stochastischen Mischmodelle präsen- 
tiert. Darüber hinaus wird für einige Formeln eine abweichende, jedoch 
äquivalente Darstellung gewählt. Außerdem wird in der Auswertung in 
Kapitel 8 zusätzlich die Entmischung bzw. Modellierung in der Albedo- 
Domäne betrachtet. 

Wie auch im Verfahren davor werden hier aus Mengen an Reinspek- 
tren Mischspektren als Trainingsdaten für ein KNN für die spektrale 
Entmischung erzeugt. Bei diesem Verfahren geschieht dies jedoch über 
den Umweg, die Spektrenvariabilität als stochastische Eigenschaften der 
Reinspektren (und Mischspektren) zu modellieren. Es dient auch dem 
Zweck, zu prüfen, ob die unten getroffenen Annahmen über die sto- 
chastischen Eigenschaften der Spektrenvariabilität zulässig sind oder 
nicht. Dies kann im Hinblick auf die spektrale Entmischung untersucht 
werden, indem die Leistung bei der spektralen Entmischung mit anderen 
Verfahren verglichen wird. 


Die Reinspektren m, werden als A-dimensionale normalverteilte Zu- 


fallsvariablen m, ~ N modelliert. Diese lassen sich mit 
Hilfe ihres Mittelwertvektors Hm, = Hp € R^ und ihrer Autokovarianz- 
matrix Im, =2,, € RA beschreiben. Zu Gunsten der Lesbarkeit 
werden in diesem Kapitel bei Mittelwertvektoren und Kovarianzmatri- 
zen von Reinspektren nur deren Indizes dargestellt, wie bspw. in (6.5) bis 
(6.8). Die Annahme einer Normalverteilung kann getroffen werden, da 
die Spektrenvariabilität viele mögliche Ursachen hat und von vielen Frei- 
heitsgraden abhängig ist (siehe Abschnitt 2.5). Damit kann der zentrale 
Grenzwertsatz in Betracht gezogen werden [32]. Darüber hinaus werden 
die Reinstoffe als stochastisch unabhängig betrachtet. Diese Annahme 
ist notwendig, um später die Momente der Mischspektren berechnen 
zu können. Eine Berechnung der Kreuzkovarianzmatrizen für je zwei 
Reinstoffe ist nämlich nicht möglich, da die Zuordenbarkeit der einzelnen 
Spektren nicht gewährleistet ist. Die Annahme der stochastischen Un- 
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abhängigkeit ist auch plausibel, da die Beschaffenheit der Reinspektren 
keinen Einfluss auf andere Reinspektren hat. 

Die Mischspektren v werden ebenfalls als A-dimensionale normalver- 
teilte Zufallsvariablen u ~ N {py, Zu u} modelliert. Dabei handelt es sich 
um eine weitere Annahme, da zwar Summen von normalverteilten Zu- 
fallsvektoren wieder normalverteilt sind, nicht jedoch Produkte, die fiir 
die nichtlinearen Mischmodelle benötigt werden. Die Mittelwertvektoren 
Hy E R“ und Autokovarianzmatrizen = R^*4 der Mischspektren 
werden mit Hilfe der Rechenregeln des Erwartungswertes berechnet. 
Die daraus resultierenden Realisierungen stellen die eigentlichen Trai- 
ningsdaten dar. Die erforderlichen mathematischen Grundlagen werden 
in Abschnitt 6.2.1 vorgestellt. In Abschnitt 6.2.2 werden diese auf die 
Mischmodelle aus Abschnitt 2.4 angewendet. 


6.2.1 Mathematische Grundlagen 


In diesem Abschnitt wird, auch wenn die Grundlagen allgemeiner Natur 
sind, die Symbolik der spektralen Entmischung verwendet, wie sie auch 
in der restlichen Arbeit Verwendung findet. 

Die zentrale Rolle spielt der Erwartungswert E{-}. Wird dieser, wie 
hier, auf Vektoren und Matrizen angewendet, so entspricht dies der An- 
wendung auf die einzelnen Elemente. Der Erwartungswert einer reellen 
Zufallsvariablen z ist definiert als 


E{z} = me zf.(z)dz. (6.4) 


Dabei ist f,(z) E R > R die Wahrscheinlichkeitsdichtefunktion [59]. 
Ist diese, wie hier, nicht bekannt, kann der Erwartungswert aus einer 
Stichprobe geschätzt werden. Der Stichprobenmittelwert eines Zufalls- 
vektors m, 


ty 


WnIlR 


5 
Fin, = my (6.5) 
s=1 


wird anhand der S Datenpunkte Mps ermittelt [98]. Darüber hinaus spielt 
die Kovarianzmatrix 


Zp, = Em, m, = Cov{m,,m, } = E{ (m, — Hy) (m; - Ha) } (6.6) 
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mit p, = Hm, = E{m, } eine wichtige Rolle [98]. Diese wird für p = q als 
Autokovarianzmatrix bezeichnet und für p + q als Kreuzkovarianzmatrix. 
Für die Kreuzkovarianzmatrix gilt 
-yT 
pq = qp” (6.7) 


während die Autokovarianzmatrix symmetrisch ist. Auch die Autokova- 
rianzmatrix kann mit Hilfe von Datenpunkten geschätzt werden [98]: 


S 
2 1 x z 
My p = Pm = 5G 2 (m) mh) 68) 
aS 


Der Erwartungswert ist ein linearer Operator [98]: 


P P 
E> am =) 4 E{m,}. (6.9) 
p=1 p=1 


Aus (6.6) und (6.9) folgt fiir die Autokovarianzmatrix einer gewichteten 
Summe von Zufallsvektoren (Herleitung siehe (A.1) im Anhang): 


P P P P 
cov = A, My, = nm | = >> 2 Ay Ig Cov{m,,m,} € (6.10) 
p=1 p=1 p=1g=1 


Des Weiteren ergibt sich der Zusammenhang 


Cov{my,m,} = Efm mt} - Efm) Em} (60 


durch Ausmultiplizieren von (6.6) und aufgrund der Linearität des Er- 
wartungswerts (6.9). Aus (6.11) folgt für das Produkt der skalaren Zu- 
fallsvariablen z| und z, 


E{zı Zo} = E{ z1} E{ z2} + Cov{z1, zo}. (6.12) 


Dieser Zusammenhang wird nur für skalare Zufallsvariablen benötigt, 
da in den Mischmodellen die Reinspektren elementweise miteinander 
multipliziert werden. Sind die Zufallsvariablen unkorreliert, so gilt [98] 


Cov{Z1,Z5} =0. (6.13) 
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Dasselbe gilt auch fiir unkorrelierte und damit auch fiir stochastisch 
unabhängige Zufallsvektoren. Dort verschwindet die Kreuzkovarianz- 
matrix. 

Wichtig fiir die Herleitung der Modelle im folgenden Abschnitt ist der 
Zusammenhang 


(m; © m3) (m, © m4)! = (mı m; ) © (m, m,) ; (6.14) 


wobei m} bis m, beliebige reelle Vektoren der gleichen Länge sind. Der 
Zusammenhang wird klar, wenn das Assoziativgesetz auf die Elemente 
der resultierenden Matrix angewendet wird. 


Verallgemeinerter Satz von Isserlis 
Ebenfalls wichtig für die Herleitung ist der verallgemeinerte Satz von 
Isserlis [56, 137]. Sei m ~ N {0, Emm} € R^ ein zentrierter Normalver- 


teilter Zufallsvektor und £ = {A}, ... Àg} mit 1 <A, < A eine Menge an 
B Indizes, wobei Indizes auch mehrfach vorkommen dürfen, so gilt für 


ungerade B: 
f I] ms =0. (6.15) 
Apel 


Ist B gerade, kann die Menge £ in eine Paar-Partition überführt werden. 
Dabei wird die Menge £ in Untermengen aufgeteilt, die jeweils aus 
genau 2 Elementen bestehen. Es sei B (£) der Raum aller möglichen Paar- 
Partitionen von £. Seien LPP € (L) eine mögliche Paar-Partition und 
LP e LP? ein Paar an Indizes, wobei das erste Element eines Paares stets 
mit A, und das zweite mit Ag bezeichnet wird, dann gilt für gerade B: 


| I] ma) = I] Cov{m ym}. (6.16) 
Apel LPPEB(L) LPecPP 
An Apelr 


In den Herleitungen zu der hier vorgestellten Methode wird der verall- 
gemeinerte Satz von Isserlis fiir Produkte von Zufallsvektoren mit sich 
selbst benötigt. Da die Produkte entweder elementweise sind oder ein 
Vektor mit einem Zeilenvektor multipliziert wird (oder einer Kombi- 
nation aus beidem), sind die Elemente des resultierenden Vektors bzw. 
der resultierenden Matrix Produkte der Elemente des Zufallsvektors. So 
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kann der Satz auf die jeweiligen Elemente angewandt werden. Auf diese 
Weise ist er auch hilfreich fiir den ganzen Vektor bzw. die ganze Matrix. 


6.2.2 Stochastische Mischmodelle 


In diesem Abschnitt werden die stochastischen Versionen der Mischmo- 
delle basierend auf Reinstoffvektoren, die als normalverteilte Zufallsvek- 
toren modelliert werden, vorgestellt. In der Praxis werden dazu fiir jeden 
Reinstoff der Mittelwertvektor und die Autokovarianzmatrix mit Hilfe 
von (6.5) und (6.8) geschatzt. Zu Gunsten der Lesbarkeit wird hier jedoch 
in den Formeln auf die Symbolik der Schatzung verzichtet, was an den 
Zusammenhängen nichts ändert. Ziel ist es, für jedes Mischmodell Mit- 
telwertvektor und Autokovarianzmatrix in Abhängigkeit der Mittelwert- 
vektoren sowie der Autokovarianzmatrizen der Reinstoffe darzustellen. 
Analog zu Abschnitt 6.1 gilt für die Nichtlinearitätskoeffizienten von 
GBM und LOM für alle p und q: y,, = y und ö,, = 6. 
Bei der stochastischen Version des LMMs 


P 
U= ` apm, (6.17) 
p=1 
folgt die Formel für den Mittelwertvektor direkt aus (6.9) 
P 
Key (6.18) 
p=1 
und die Formel für die Autokovarianzmatrix aus (6.10) 
P 
Zu = >= a? Lap , (6.19) 


wobei aufgrund der Unkorreliertheit der Reinspektren sämtliche Kreuz- 
kovarianzmatrizen in (6.10) verschwinden. Bei der Mischung der Spek- 
tren in der Albedo-Domäne wird das LMM für die mit (2.11) transfor- 
mierten Spektren genutzt, weshalb hier die gleichen Formeln verwendet 
werden können. 
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Beim FM (entspricht GBM mit y = 1) und GBM werden Reinspektren 
auch miteinander multipliziert, jedoch nie mit sich selbst: 


P P-1 P 
v=) aqm +>), D Yap agm, Om,. (6.20) 
p=1 p=1g=p+1 


Die Formel für den Mittelwertvektor folgt hier direkt aus (6.9), (6.12) und 
(6.13): 


-Xe Hp + = d Yap Ag Uy © Wg- (6.21) 
p=1 q=p+1 


Die Formel für die ARTENE A folgt beim GBM aus (6.10) und 
(6.13): 


-yz pp t 2 y” ap ag Epoq poq (6.22a) 
p=1 q=p+1 
$ = 3 Yap q (Eye + Dean) (6.22b) 
=1g=1 
oe 
P P-1 


T = > y v ap ag a, (£ BE SEAL (6.22c) 


p=1 q=1 r=q+1 
q+p r+p 


Dabei finden sich in Zeile (6.22a) die Autokovarianzmatrizen der linear 
und der bilinear eingehenden Reinspektren. Darunter in (6.22b) befinden 
sich die Kreuzkovarianzmatrizen der linear eingehenden Spektren und 
der bilinear eingehenden Spektren, die den entsprechenden Reinstoff 
ebenfalls beinhalten. In (6.22c) befinden sich schließlich die Kreuzkovari- 
anzmatrizen der bilinear eingehenden Spektren, bei denen jeweils ein 
Reinstoff der gleiche ist. Alle weiteren Kovarianzmatrizen verschwinden 
aufgrund der stochastisch unabhängigen Reinstoffe. 

Die Zusammenhänge zwischen den Kovarianzmatrizen in (6.22a) bis 
(6.22c) sind in (6.23) bis (6.25) dargestellt, wobei 1 ein Vektor der passen- 
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den Länge bestehend aus Einsen ist. Die dazugehörigen Herleitungen 
(A.2), (A.3) und (A.4) sind im Anhang zu finden. 


5 T T 

Zyog,pog = pp © Eq + pp © (Hat, ) +2,90 (Hpup ) (6.23) 
= T T 

En pog + Zpoqp = Epp © (Ing) + Epp © (Hq 1") (6.24) 

Epogpor + Zporpoq = Epp © (Par) + Epp © (tty) (6-25) 


Die stochastische Version des LOMs lässt sich so umschreiben, dass 
sie weitestgehend dem GBM mit einem zusätzlichen quadratischen Sum- 
manden, bei dem Reinspektren mit sich selbst multipliziert werden, 
entspricht: 


P P P 
U= 2 => $ om, Om, (6.26a) 
= en P-1 P 
= apm, +öm, om, +) > 26m, om,. (6.26b) 
=i, p=1g=p+1 


Der Mittelwertvektor wird beim LOM mit 


P P-1 P 
2% Hp + ÖHyop + ` >. 254,0}, (6.27) 
p=1 q=pt+1 


berechnet. Dabei wird der Mittelwert des Produkts eines Reinspektrums 
mit sich selbst (2. Summand) aufgrund von (6.12) folgendermaßen be- 
rechnet: 


Poop = Hp © Hy + d(Z,,) . (6.28) 
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Für die Autokovarianzmatrix des Mischspektrums müssen wegen der 
zusätzlichen Summanden im Vergleich zum GBM mehr Kreuzkovari- 
anzmatrizen berechnet werden: 


P P-1 P 
2 2 2 2 
DEN a hose Ea S AO ar 1208) 
p=1 p=1 q=p+1 
P 
+ ) ap 5 (Epop,p + Ep pop) (6.29b) 
p=1 
P P 
k Ds 2 2a, ô (25964 T Esopp) (6.29c) 
p=1g=1 
q#P 
P P 
7 » 28? Eee + Lorp) (6.29d) 
p=1q=1 
q#P 
P P-1 P 
= > = = 4° (Zpoqpor + Ess) (6.29e) 
p=1g=1r=g+1 
qtp r+p 


In (6.29a) sind die Autokovarianzmatrizen aller Summanden zu finden. 
Die Zeilen (6.29c) und (6.29e) entsprechen denen, die auch beim GBM 
vorkommen. Die Kreuzkovarianzmatrizen in (6.29b) und (6.29d) kom- 
men durch die Produkte der Spektren mit sich selbst hinzu. Wahrend 
erstere in Kombination mit dem gleichen linearen Spektrum zustande 
kommen, kommen letztere durch die Kombination mit den bilinearen 
Summanden hinzu, bei denen ein Spektrum dem eines quadratisch ein- 
gehenden entspricht. 

Die in (6.29a) bis (6.29e) vorkommenden Kovarianzmatrizen, die nicht 
in (6.23) bis (6.25) berechnet werden, werden in (6.30) bis (6.32) berechnet, 
wobei 1 ein Vektor der passenden Lange bestehend aus Einsen ist. Die 
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dazugehörigen Herleitungen (A.5), (A.6), (A.7) und (A.8) sind im Anhang 
zu finden. 


= T T 
Lpopp + Da =2Epp © y T) +22,, © (1m) (6.30) 
= T T 
Zyop,pog + Epoq pop = 2¥p,p © (Hp¥q ) +22, ,0 (Hap ) (6.31) 
= T 
Lpoppop Epp © (Hpty) +22,, OL, (6.32) 


Nun können für alle in Abschnitt 2.4 vorgestellten Mischmodelle Mit- 
telwertvektoren und Autokovarianzmatrizen für Mischspektren erzeugt 
werden. Dazu können verschiedene Anteilsvektoren vorgegeben werden. 
Für jeden Anteilsvektor werden Mittelwertvektor und Autokovarianz- 
matrix vorab berechnet. Während des Trainings des CNNs aus Kapitel 5 
werden daraus in jeder Epoche für alle Mittelwertvektoren und Autoko- 
varianzmatrizen mehrere unterschiedliche Spektren zufällig erzeugt. 

Beim LQM und GBM werden die Nichtlinearitätskoeffizienten y und 
ô auch hier mit Hilfe der Performanz des CNNs bezüglich des Validie- 
rungsdatensatzes ermittelt. 

Analog zum Verfahren in Abschnitt 6.1 werden auch hier die resultie- 
renden Spektren so normiert, dass die Summe aller Vorfaktoren 1 ergibt. 
Dazu können ebenfalls (6.2) und (6.3) verwendet werden. 


70 


7 Augmentierung spektraler 
Datensatze 


Sind neben den Mengen an Reinspektren (6.1) auch Mengen an Spektren 
von Stoffgemischen vorhanden, können diese als Trainingsdaten für ein 
CNN für die spektrale Entmischung (siehe Kapitel 5) verwendet werden. 
Die Menge 

Ya = {Va Vas} (7.1) 


enthält S Spektren eines Stoffgemisches, in dem die Anteile der Reinstoffe 
den Elementen des Anteilsvektors a entsprechen. Da diese, vor allem bei 
speziellen industriellen Anwendungen, häufig nur in geringer Menge zur 
Verfügung stehen bzw. aufwendig zu erzeugen sind, stellt das Training 
eines neuronalen Netzes eine Herausforderung dar (siehe Abschnitt 3.1). 
Vor allem bei einem Regressionsproblem mit kontinuierlichen Ein- und 
Ausgangsgrößen ist es wünschenswert, wenn der Eingangswertebereich 
und der Ausgangswertebereich möglichst gut durch die Daten abgedeckt 
werden. Übertragen auf die spektrale Entmischung bedeutet das, dass zu 
möglichst vielen Anteilsvektoren Spektren verfügbar sind. Diese sollten 
eine möglichst realistische Spektrenvariabilität aufweisen, damit diese 
durch das KNN berücksichtigt wird. 

Abhilfe kann hier die Datenaugmentierung (siehe 3.1.3) schaffen. Je- 
doch kommen die gängigen Augmentierungsverfahren vor allem aus 
dem Bereich der Bildverarbeitung und können nicht direkt auf Spektren 
angewendet werden. Bei der spektralen Entmischung ist die Erzeugung 
von Trainingsdaten für Anteilsvektoren sinnvoll, die nicht bereits im vor- 
handenen Trainingsdatensatz enthalten sind. Um die Spektrenvariabilität 
zu berücksichtigen, können viele unterschiedliche Spektren je Anteilsvek- 
tor erzeugt werden. In diesem Kapitel werden Verfahren vorgestellt, die 
aus relativ wenigen verfügbaren Datenpunkten den zugrundeliegenden 
Zusammenhang zwischen Anteilsvektoren und Spektren modellieren. 


71 


7 Augmentierung spektraler Datensätze 


Die Spektrenvariabilität wird dabei über stochastische Bestandteile mo- 
delliert. Bisher existieren nur Verfahren, die zusätzliche Reinspektren 
erzeugen (siehe Abschnitt 4.3 und [8, 9]). 

Allen vorgestellten Verfahren ist gemein, dass sie nach dem Training 
in der Lage sind, unter Vorgabe von Anteilsvektoren Spektren zu erzeu- 
gen. Im Detail unterscheiden sich die Verfahren jedoch. In Abschnitt 7.1 
wird ein generatives CNN vorgestellt, bei dem neben dem Anteilsvektor 
zufällige Eingangswerte vorgegeben werden können, um die Spektren- 
variabilität zu berücksichtigen. Dieses CNN wird in Abschnitt 7.2 in ein 
GAN integriert. Ein davon unabhängiger Ansatz wird in Abschnitt 7.3 
vorgestellt. Hier werden die Spektren als Gauß-Prozesse modelliert. Die 
Zusammenhänge zwischen den Momenten der Reinspektren und der 
Spektren von Mischungen werden mit Hilfe von KNN hergestellt, die 
kleiner sind als die der vorherigen Ansätze. 


7.1 Generatives Faltungsnetz 


Der in diesem Abschnitt vorgestellte Ansatz ist bereits veröffentlicht 
worden [V7]. Dabei fällt in dieser Arbeit die Auswertung in Kapitel 8 
ausführlicher aus. Vor allem wird zusätzlich die Entmischung bzw. Aug- 
mentierung in der Albedo-Domäne betrachtet. 

Die Grundidee dieses Ansatzes besteht darin, ein CNN zu trainieren, 
bei dem die Ein- und Ausgänge im Vergleich zum CNN aus Kapitel 5 ver- 
tauscht sind. Damit sind die Anteilsvektoren die Eingangsgrößen und die 
Spektren die Ausgangsgrößen. So lassen sich mit dem fertig trainierten 
generativen CNN unter Vorgabe neuer Anteilsvektoren neue Spektren 
erzeugen. Ein trainiertes KNN würde jedoch für jeden vorgegebenen 
Anteilsvektor a genau ein Spektrum erzeugen, da es einer Funktion ent- 
spricht. Hier kommen die zufälligen Eingangsgrößen z € RŽ ins Spiel. 
Werden zusammen mit den Anteilsvektoren unterschiedliche Realisie- 
rungen der zufälligen Eingangsgrößen vorgegeben, kann das generative 
CNN unterschiedliche Spektren für jeden Anteilsvektor erzeugen. 

Da für das Training des generativen CNNs die gleichen Trainingsdaten 
zur Verfügung stehen wie für das CNN für die spektrale Entmischung, 
stellt sich die Frage, wie durch den Umweg über das generative CNN 
und die Erzeugung zusätzlicher Trainingsdaten eine Verbesserung er- 
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zielt werden kann. Zentral ist hier die Spektrenvariabilitat. Durch sie 
haben jeweils mehrere Spektren den gleichen Anteilsvektor. Dadurch 
gibt es beim CNN fiir die spektrale Entmischung wesentlich mehr unter- 
schiedliche Eingangsdaten als Ausgangsdaten. Beim generativen CNN 
verhält es sich jedoch durch das Vertauschen von Ein- und Ausgangs- 
daten genau umgekehrt. Durch die zufälligen Eingangsgrößen wird die 
Anzahl an Eingangsdaten künstlich erhöht. Um den Raum, der durch die 
zufälligen Eingangsgrößen aufgespannt wird, möglichst gut abdecken 
zu können, werden diese in jeder Epoche beim Training neu erzeugt. 
Vor allem im industriellen Umfeld ist ein Datensatz plausibel, bei dem 
viele unterschiedliche Spektren je Anteilsvektor enthalten sind (siehe 
Abschnitt 1.2). 

Wie in Abschnitt 2.5 dargestellt, hat die Spektrenvariabilität viele Ursa- 
chen. Um sie korrekt modellieren zu können, müssen die Bedingungen, 
unter denen ein Spektrum aufgenommen wird, genau bekannt sein. 
Dies ist meist nicht der Fall. Eine mögliche Interpretation der zufälligen 
Eingangsgrößen ist, dass sie die von einem KNN kodierte Version der 
Umgebungsparameter, die für die spektrale Entmischung verantwortlich 
sind, darstellen. Eine gängige Netzstruktur, die diese Kodierung durch- 
führen könnte, wäre ein Autoencoder (siehe Abschnitt 3.5). Die Daten in 
der Engstelle entsprächen der Kodierung. Da die nötigen Umgebungspa- 
rameter zum Training des Autoencoders nicht verfügbar sind, kann dieser 
nicht realisiert werden, jedoch kann diese Interpretation hilfreich sein, 
zu verstehen, weshalb die zufälligen Eingangsgrößen zum gewünschten 
Ergebnis führen. Es wäre ein Autoencoder denkbar, der durch Training 
genau diese Größen als Kodierung der Umgebungsparameter erhält. 


7.1.1 Netzaufbau 


Der Aufbau des generativen CNNs wird in Abbildung 7.1 dargestellt. 
Es besteht im Wesentlichen aus Faltungsschichten, die eine sogenannte 
transponierte Faltung durchführen. Bei mehreren Ein- und Ausgangs- 
merkmalskarten wird analog zu den Abbildungen 3.4 und 3.5 verfahren. 
Die Parameter der transponierten Faltung sind hier so gewählt, dass 
ihr Resultat dem Einfügen von Nullen zwischen den Elementen des 
Eingangsvektors mit anschließender Faltung entspricht. 
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Abbildung 7.1 Das generative CNN, wie es für die Ergebnisse in dieser Arbeit verwendet 
wird [V7]. Es werden drei Schichten mit transponierten Faltungen (t. Faltung) benutzt, um 
aus den Anteilsvektoren und zufälligen Eingängen Spektren zu erzeugen. Die letzte Schicht 
ist eine Faltungsschicht, die alle Merkmalskarten der Vorgängerschicht zusammenführt. Zu 
Gunsten der Lesbarkeit wird in der Abbildung immer nur eine Merkmalskarte je Schicht 
dargestellt. 


In jeder Schicht wird die logistische Funktion (3.7) als Aktivierungs- 
funktion verwendet. Diese hat in den Versuchen zu den besten Ergeb- 
nissen geführt. So gibt es durch die Begrenzung der Ausgangswerte im 
Vergleich zur ReLU weniger Ausreißer bei den generierten Spektren. Dies 
gilt besonders für das Verfahren in Abschnitt 7.1.3.1. 

Als Verlustfunktion wird die logistische Verlustfunktion (3.4) verwen- 
det, wobei die Spektren die Ausgangsdaten sind. Diese Verlustfunktion 
wird hauptsächlich für KNN verwendet, die eine binäre Klassifikation 
durchführen. Sie kann aber auch für kontinuierliche Ausgangsgrößen 
eingesetzt werden, so lange sie immer zwischen 0 und 1 liegen, was hier 
der Fall ist, da die Spektren einem Weißabgleich unterzogen werden 
(siehe Abschnitt 8.1). 
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7.1.2 Interpretation als Conditional Variational 
Autoencoder 


Das generative CNN kann alternativ auch als Decoder eines Conditional 
Variational Autoencoders (siehe Abschnitt 3.5) interpretiert werden. Im 
Falle des hier vorgestellten generativen CNNs sind die Bedingungen die 
vorgegebenen Materialanteile. Wahrend der Versuche hat sich jedoch her- 
ausgestellt, dass die Ergebnisse identisch sind, unabhängig davon, ob der 
Encoder verwendet wird oder, wie oben beschrieben, direkt zufällige Wer- 
te basierend auf einer festen Wahrscheinlichkeitsverteilung vorgegeben 
werden. Das liegt daran, dass beim Variational Autoencoder die Kosten- 
funktion nicht nur die Rekonstruktion der Eingangsdaten beinhaltet, 
sondern auch einen Teil, der die Ausgangsgrößen des Encoders mit denen 
einer vorgegebenen Wahrscheinlichkeitsverteilung vergleicht (siehe Ab- 
schnitt 3.5). Bei sich unterscheidenden Daten im Trainingsdatensatz ist es 
nicht möglich, dass die vorgegebene Wahrscheinlichkeitsverteilung beim 
Training erreicht wird und gleichzeitig die Rekonstruktion einen mög- 
lichst geringen Fehler erreicht. Hier werden jedoch die Anteilsvektoren 
vorgegeben, weshalb ein großer Teil der Information direkt in den Deco- 
der gegeben wird. Für die Spektrenvariabilität scheint es ausreichend zu 
sein, direkt die gewünschte Wahrscheinlichkeitsverteilung vorzugeben. 
Diese wird während des Trainings vom Encoder immer erreicht, sodass 
dessen Training auch ganz entfallen kann. 


7.1.3 Verbesserung der modellierten Spektrenvariabilität 


Während der Umsetzung hat sich herausgestellt, dass die Spektrenva- 
riabilität der generierten Spektren weniger ausgeprägt ist als die der 
Daten im entsprechenden Trainingsdatensatz (siehe Abschnitt 8.2). Das 
liegt daran, dass das generative CNN lange trainiert wird und sich die 
meisten Spektren in der Nähe des (jeweils für einen bestimmten An- 
teilsvektor) mittleren Spektrums befinden. Da gleichzeitig die zufälligen 
Eingänge in jeder Epoche und für jeden Datenpunkt neue Realisierungen 
liefern, kommen Spektren mit größerem Abstand zum mittleren Spek- 
trum bei der Datenerzeugung kaum vor. Um die Spektrenvariabilität 
besser modellieren zu können, werden zwei Ergänzungen vorgestellt. 
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7.1.3.1 Varianzvariation der zufälligen Eingänge 


Bei der ersten Erweiterung wird die Varianz der zufälligen Eingangs- 
größen bei der Erzeugung zusätzlicher Daten größer gewählt als beim 
Training des generativen CNNs. Dies führt zu einer höheren Varianz 
der erzeugten Spektren. Durch die Verwendung logistischer Aktivie- 
rungsfunktionen ist der Wertebereich der Ausgangsgrößen jeder Schicht 
beschränkt, sodass auch bei unbekannten zufälligen Eingangswerten 
keine extremen Ausreißer zu erwarten sind. Jedoch besteht die Gefahr, 
dass die erzeugten Spektren, bei zu stark von den aus dem Training 
bekannten Eingangswerten abweichenden Eingangsgrößen, nicht mehr 
authentisch sind. Daher darf die Varianz der zufälligen Eingänge nicht 
zu stark erhöht werden. 


7.1.3.2 Regularisierung mit Kovarianzmatrizen 


Bei der zweiten Erweiterung wird eine Regularisierung basierend auf 
Autokovarianzmatrizen verwendet. Die Voraussetzung dafür ist, dass 
genügend Spektren mit (näherungsweise) identischem Anteilsvektor zur 
Verfügung stehen. 

Für die Regularisierung wird für jede im Trainingsdatensatz enthaltene 
Menge an Spektren Y, ein Regularisierungsterm 


2 


5 (7.2) 


ky lzy,y, — Ly: ys 


zur logistischen Verlustfunktion (3.4) addiert. Der Gewichtungsfaktor 
ky € R* ist dabei für alle Summanden gleich. Die Schätzung der Auto- 
kovarianzmatrizen mit der Menge an erzeugten Spektren Ly y, und mit 


der Menge an wahren Spektren Ly. ys erfolgt mit Hilfe von 


s 
ây = =) vas (73) 
S s=1 
und š 
Ly y, = at. 2 (vas = fy, ) (vas = fy.) (7.4) 
s=1 
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Dadurch, dass hier auch die Autokovarianzmatrizen, die nur aufgrund 
der Spektrenvariabilität existieren, mit in die Verlustfunktion fließen, 
wird eine falsche Modellierung der Spektrenvariabilität bestraft. 


7.2 Generative Adversarial Network 


Das in diesem Abschnitt vorgestellte Verfahren ist bereits veröffentlicht 
worden [V10], wobei in dieser Arbeit die Auswertung in Kapitel 8 aus- 
führlicher ausfällt. Vor allem die Augmentierung in der Albedo-Domäne 
und die spektrale Entmischung werden in der Auswertung in Kapitel 8 
zusätzlich betrachtet. 

Wie bereits in den Grundlagen in Abschnitt 3.4 beschrieben, eignen 
sich GAN dazu, Daten zu erzeugen, die den verwendeten Trainingsdaten 
ähnlich sind. Um sie, wie das generative CNN aus Abschnitt 7.1, für die 
Erzeugung weiterer Mischspektren mit neuen Anteilsvektoren einset- 
zen zu können, müsste es eine Möglichkeit geben, die Anteilsvektoren 
vorzugeben. Dies ist beim GAN so zunächst nicht möglich (siehe Ab- 
bildung 3.7), wobei die realen Daten in Abbildung 3.7 die Spektren des 
Trainingsdatensatzes wären. 

Eine Abwandlung des GANs, die zusätzliche Eingangsgrößen berück- 
sichtigt, ist das conditional Generative Adversarial Network (CGAN) [80], 
was in Abbildung 7.2 schematisch für die hier verwendeten Daten dar- 
gestellt wird. Das CGAN ist entwickelt worden, um bei der Datenerzeu- 
gung (sowie beim Training) Klassen vorgeben zu können. Damit wird 
die Erzeugung von Daten ermöglicht, die der entsprechenden Klasse 
zugehören. Im Gegensatz zu den vorgegebenen Anteilsvektoren ist die 
Anzahl der Klassen endlich. Außerdem kommen auch alle Klassen im 
Trainingsdatensatz vor. Das sind neben der zu geringen Anzahl an Trai- 
ningsdaten die Gründe dafür, warum es in den Versuchen zu diesem 
Ansatz nicht gelungen ist, ein CGAN für die Erzeugung zusätzlicher 
Spektren zu trainieren. Daher konnten auch keine Ergebnisse für einen 
Vergleich erzeugt werden. Auch die Verwendung eines continuous con- 
ditional Generative Adversarial Networks [21] führte nicht zu Erfolg, was 
ebenfalls an der geringen Anzahl an Trainingsdaten und an dem großen 
Abstand zwischen den im Trainingsdatensatz vorhandenen Anteilsvek- 


77 


7 Augmentierung spektraler Datensätze 


Anteile a 


Den 
ih: 


G bzw. l D 


Zufallszahlen z reale Spektren v 


Abbildung 7.2 Schematische Darstellung eines CGANSs für die Erzeugung zusätzlicher 
Mischspektren. Schwarze Pfeile stehen für den Datenfluss in Vorwärtsrichtung, grüne 
für die Fehlerrückführung. Im Gegensatz zum GAN können hier noch Bedingungen (die 
Anteile) vorgegeben werden, die sowohl in den Generator als auch in den Diskrimina- 
tor eingehen. 


toren liegt. Außerdem ist es ursprünglich für eine skalare Bedingung 
und nicht für eine vektorwertige entworfen worden. 

Aufgrund dieser Erkenntnisse wird hier das generative CNN aus Ab- 
schnitt 7.1 in ein GAN integriert. 


7.2.1 Regularisierung mit Generative Adversarial Network 


Für die Integration des generativen CNNs in ein GAN wird die Verlust- 
funktion des generativen CNNs durch die des GANs ergänzt, sodass die 
realen Spektren aus dem Trainingsdatensatz direkt in die Verlustfunktion 
einfließen (siehe Abbildung 7.3). Da die Verlustfunktion des generativen 
CNNs ergänzt wird, wird der Ansatz hier als regularisierendes Gene- 
rative Adversarial Network (RGAN) bezeichnet. Durch die Verwendung 
des Diskriminators zusätzlich zum generativen CNN soll eine authen- 
tischere Modellierung der Spektren ermöglicht werden. Ein ähnlicher 
Ansatz existiert bereits für die unüberwachte spektrale Entmischung [52]. 
Im Allgemeinen wird die Regularisierung mit Hilfe des Diskriminators 
bereits für Autoencoder verwendet, wobei das Konzept als Adversarial 
Autoencoder bezeichnet wird [75]. Dort werden, anders als beim RGAN, 
die Werte der Engstelle regularisiert. 

Im Gegensatz zum CGAN wird beim RGAN der Generator nicht nur 
indirekt über den Diskriminator trainiert, sondern auch direkt über die 
Spektren im Trainingsdatensatz. Damit soll der Zusammenhang zwi- 
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Abbildung 7.3 Schematische Darstellung des RGANs für die Erzeugung zusätzlicher 
Mischspektren [V10]. Schwarze Pfeile stehen für den Datenfluss in Vorwärtsrichtung, grüne 
für die Fehlerrückführung. 


Anteile a 


schen den Spektren und den Anteilsvektoren hergestellt werden. Weiter- 
hin gibt es, wie in Abschnitt 7.1, die zufälligen Eingangsgrößen, damit für 
den gleichen Anteilsvektor mehrere Spektren realisiert werden können. 
Dadurch wird die Spektrenvariabilität modelliert. 

Der Diskriminator wird wie beim ursprünglichen GAN trainiert. Sein 
Ziel besteht weiterhin darin, echte von generierten Spektren zu unter- 
scheiden. Dabei versucht der Generator, möglichst authentische Daten 
zu generieren, sodass dem Diskriminator die Unterscheidung nicht mehr 
gelingt. Damit soll erreicht werden, dass die erzeugten Spektren so au- 
thentisch wie möglich sind. 

Damit ist die Verlustfunktion des Diskriminators weiterhin (3.23), wo- 
bei die Spektren den Datenpunkten entsprechen. Die Verlustfunktion 
des Generators setzt sich aus (3.4) und (3.22) zusammen 


Iran = lg + Kr bog, (75) 


wobei die Spektren sowohl Eingangsdaten des Diskriminators als auch 
Ausgangsdaten des Generators sind und dementsprechend in die For- 
meln eingesetzt werden müssen. Dabei ist kg € R* ein Gewichtungs- 
faktor, der den Einfluss der beiden Teilverlustfunktionen steuert. 

Nach dem Training kann der Generator analog zum generativen CNN 
aus Abschnitt 7.1 genutzt werden, um weitere Spektren für Anteilsvekto- 
ren zu erzeugen, die nicht im ursprünglichen Trainingsdatensatz enthal- 
ten sind. Auch hier wird die Spektrenvariabilität durch unterschiedliche 
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zufällige Eingangsgrößen realisiert. Der Diskriminator wird bei einem 
GAN normalerweise nicht für die Datenerzeugung herangezogen. 


7.2.2 Diskriminator für Datenerzeugung 


Bei dem hier vorgestellten Ansatz kann es durchaus Sinn ergeben, den 
Diskriminator bei der Datenerzeugung ebenfalls zu verwenden. Die Idee 
dahinter ist, dass hier Anteile vorgegeben werden, die der Generator 
nicht kennt. Somit besteht die Gefahr, dass er neue Spektren generiert, 
die weniger authentisch sind. Der Diskriminator wird jedoch dafür trai- 
niert, um zu entscheiden, ob ein Spektrum echt erscheint oder nicht. Im 
Idealfall ist der Diskriminator auch in der Lage, dies für unbekannte An- 
teilsvektoren durchzuführen, da er mit verschiedenen Anteilsvektoren 
trainiert wurde. Wenn dies zutrifft, müsste durch die Verwendung eine 
Verbesserung der Ergebnisse erzielt werden können. Ob das der Fall ist, 
wird in Kapitel 8 untersucht. 

Umgesetzt wird die Generation der Spektren so, dass die gewünschte 
Anzahl an Spektren pro Anteilsvektor vorgegeben wird. Dann werden 
für jeden Anteilsvektor so lange Spektren generiert, bis diese Zahl er- 
reicht ist, wobei diejenigen, die der Diskriminator als unecht klassifiziert, 
direkt aussortiert werden. Wird für eine festgelegte Anzahl an erzeug- 
ten Spektren ¢; € N keines gefunden, das der Diskriminator für echt 
befindet, so wird die Entscheidungsgrenze, hier 0,5 (siehe Abschnitt 3.4), 
um einen festen Wert ¢, € R verkleinert. Diese Absenkung der Entschei- 
dungsgrenze ist in der Praxis notwendig, da sonst für einige Anteilsvek- 
toren die Spektren nie als echt klassifiziert werden, und wird für jeden 
vorgegebenen Anteilsvektor separat behandelt. Durch die schrittweise 
Absenkung werden trotzdem Spektren bevorzugt, bei denen der Diskri- 
minator einen möglichst hohen Ausgangswert liefert, d.h. es werden 
Spektren bevorzugt, die nur knapp für unecht befunden wurden. 


7.3 GauB-Prozess-inspirierte neuronale Netze 
Das in diesem Abschnitt vorgestellte Verfahren zur Augmentierung ist 


bereits veröffentlicht worden [V8], wobei in dieser Arbeit die Auswer- 
tung in Kapitel 8 ausführlicher ausfällt. Auch hier werden vor allem die 
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Augmentierung in der Albedo-Domäne und die spektrale Entmischung 
in Kapitel 8 zusätzlich betrachtet. 

An dieser Stelle wird nicht im Detail auf stochastische Prozesse einge- 
gangen, da dies für das Verständnis des Abschnitts nicht notwendig ist. 
Wichtig ist, dass ein stochastischer Prozess einer Zufallsvariablen ent- 
spricht, die von einer weiteren Eingangsgröße, meist der Zeit, abhängt. 
Damit ergibt sich für einen festen Zeitpunkt (eine feste Eingangsgröße) 
eine Zufallsvariable. Eine zeitabhängige Realisierung wird als Muster- 
funktion bezeichnet. In dieser Arbeit wird statt einer Zeitabhängigkeit 
die Abhängigkeit von der Wellenlänge genutzt. Daher wird auch die 
entsprechende Notation bei der Einführung verwendet. 

Ein Gauß-Prozess u, ~ gp (My, ky) ist ein stochastischer Prozess, der 
vollständig durch seine Mittelwertfunktion m, : R —> R und eine Ko- 
varianzfunktion k,, : R? > R beschrieben wird. Hier hängt der Gauß- 
Prozess, der die Spektren eines Datensatzes modelliert, vom Wellenlän- 
genindex A ab und ist zusätzlich mit dem Anteilsvektor a parametriert. 
Damit ist die Mittelwertfunkton 


m, (Ala) (7.6) 
und die Kovarianzfunktion 
k, (A,A'la) (7.7) 


mit den Wellenlängenindizes A,A’ € N*. Das Ziel besteht darin, diese 
beiden Zusammenhänge mit Hilfe vergleichsweise einfacher KNN zu 
modellieren. Dazu müssen zunächst die Daten, die als Spektren und 
Anteilsvektoren vorliegen, in eine bestimmte Form gebracht werden. Zur 
besseren Unterscheidung wird das KNN für die Mittelwertfunktion im 
Folgenden als Nin, und das ftir die Kovarianzfunktion als Nx, bezeichnet. 


7.3.1 Vorbereitung der Trainingsdaten 


Um die Trainingsdaten für N, und N, zu erhalten, müssen zunächst 
die Mittelwertvektoren und Kovarianzmatrizen der Spektren für jeweils 
einen Anteilsvektor berechnet werden. Diese werden aus den Spektren- 
mengen (7.1) mit Hilfe von (7.3) und (7.4) geschätzt. Die Elemente des 
Mittelwertvektors entsprechen (7.6) und die der Kovarianzmatrix (7.7), 
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Abbildung 7.4 Illustration der Indizes A, A’, A, und A, (von links nach rechts) innerhalb 
einer Kovarianzmatrix [V8]. Dabei steht Schwarz fiir kleine Werte und Weiß für große. 
Die schwarzen Rahmen dienen der besseren Darstellung und gehören nicht mehr zur 
eigentlichen Illustration. 


jeweils für die im Trainingsdatensatz vorhandenen Wellenlängenindi- 
zes A. 

Die Eingangsdaten für das Training von N, sind nun der Anteilsvek- 
tor a und der Wellenlängenindex A. Die Ausgangsdaten sind die korres- 
pondierenden Elemente des Mittelwertvektors. Als Eingangsdaten für 
Ny, werden neben dem Anteilsvektor a die transformierten Wellenlän- 


genindizes A, € N und Ñ, € N mit 
=A +1']| (7.8) 


und 
Ay =A-|A-A'| (7.9) 


genutzt, wobei A der Anzahl der verwendeten Wellenlängenkanäle ent- 
spricht. Die Ausgangsdaten fiir das Training von N, sind die korrespon- 
dierenden Elemente der Kovarianzmatrix. Die Indizes} und Ä, werden 
aufgrund zweier Eigenschaften von Kovarianzmatrizen benutzt. Zum 
einen sind sie symmetrisch und zum anderen sind die größten Werte auf 
der Hauptdiagonalen zu finden. Dies wird mit A, und A, nachempfun- 
den (siehe Abbildung 7.4). Dank dieser Transformation muss das KNN 
weniger Anderungen in der Monotonie lernen und kann recht einfach 
gehalten werden. Im folgenden Abschnitt wird der Aufbau von Nm, 
und N; beschrieben, wobei die Dimensionen von Ein- und Ausgängen 
bereits durch die zuletzt beschriebenen Daten festgelegt sind, nämlich 
P+1und1bzw. P +2 und 1. 
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Abbildung 7.5 Schematische Darstellung des verwendeten neuronalen Netzwerks [V8]: 
Es hat vier Blöcke, die jeweils aus einer vollständig verbundenen Schicht, Batch-Normali- 
sierung und der ReLU Aktivierungsfunktion bestehen. Am Ausgang befindet sich eine 
vollständig verbundene Schicht mit einer logistischen Aktivierungsfunktion. 


7.3.2 Netzstruktur 


Um die gewünschten Zusammenhänge (7.6) und (7.7) abbilden zu kön- 
nen, sind recht einfache KNN ausreichend. Wegen der kleinen Anzahl 
an Eingangsgrößen, die in keinerlei ,, Nachbarschaftsbeziehung” stehen 
(sie könnten in beliebiger Reihenfolge eingegeben werden), sind CNN 
hier nicht zielführend. Stattdessen werden vorwiegend vollständig ver- 
bundene Schichten verwendet. Der vollständige Aufbau beider KNN 
ist in Abbildung 7.5 zu sehen. Für das Training wird die logistische 
Verlustfunktion (3.4) genutzt. Diese hat während der Versuche die bes- 
ten Ergebnisse erzielt, jedoch müssen die Werte der Ausgangsdaten 
zwischen 0 und 1 liegen. Während die Mittelwertvektoren durch die 
Normierung der Spektren schon Werte ausschließlich zwischen 0 und 1 
besitzen, werden die Kovarianzmatrizen durch Verschiebung und Ska- 
lierung in diesen Bereich überführt. Am Ende der Datenerzeugung wird 
dies wieder rückgängig gemacht. 
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7.3.3 Augmentierungsstrategie 


Die trainierten KNN können nun, wie bei den vorherigen Methoden, 
dazu genutzt werden, die dazugehörigen Mittelwertvektoren und Ko- 
varianzmatrizen unter Vorgabe neuer Anteilsvektoren zu erzeugen. Da 
auch der Wellenlängenindex vorgegeben werden kann, wäre bei diesem 
Ansatz denkbar, Werte für Wellenlängen, die nicht im Trainingsdatensatz 
enthalten sind, zu erzeugen. Dies könnte sich vor allem bei der Verwen- 
dung unterschiedlicher Aufnahmeeinrichtungen mit unterschiedlicher 
spektraler Auflösung als nützlich erweisen, wurde jedoch im Kontext 
dieser Arbeit nicht untersucht. Dazu wäre es jedoch sinnvoller, statt den 
Wellenlängenindex direkt die Wellenlänge zu nutzen. Weil nur die Mo- 
mente, nicht jedoch die Spektren selbst generiert werden, können die 
Spektren während des Trainings in jeder Epoche neu zufällig erzeugt 
werden, wie es auch bei der Methode in Abschnitt 6.2 der Fall ist. 

Alle vorgestellten Verfahren zur Datenerzeugung (Kapitel 6) und zur 
Datenaugmentierung (Kapitel 7) werden nun in Kapitel 8 mit Hilfe von 
Experimenten mit mehreren Datensätzen ausgewertet. 
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In diesem Kapitel werden die in den Kapiteln 5 bis 7 vorgestellten Verfah- 
ren mit Hilfe von realen Datensätzen ausgewertet und verglichen. Dazu 
werden in Abschnitt 8.1 die verwendeten Datensätze und die Aufnahme- 
einrichtung, mit der sie erstellt worden sind, vorgestellt. Anschließend 
werden in Abschnitt 8.2 die mit den entwickelten Augmentierungsverfah- 
ren erzeugten Spektren direkt mit Hilfe geeigneter Metriken bewertet. In 
Abschnitt 8.3 werden schließlich alle vorgestellten Verfahren bezüglich ih- 
rer Performanz bei der spektralen Entmischung ausgewertet. Schließlich 
wird die Auswertung in Abschnitt 8.4 zusammengefasst. 


8.1 Verwendete Datensätze 


Bei den hier verwendeten Datensätzen handelt es sich um echte Auf- 
nahmen aus dem Bildverarbeitungslabor des Instituts für Industrielle 
Informationstechnik am Karlsruher Institut für Technologie. Damit ist 
sichergestellt, dass die wahren Mischverhältnisse und damit die wahren 
Anteilsvektoren möglichst genau bekannt sind. 

Die dort vorliegenden Bedingungen haben mit denen im industriellen 
Umfeld gemein, dass sowohl die Parameter der Aufnahmeeinrichtung als 
auch die Parameter der Beleuchtung bekannt sind bzw. bestimmt werden 
können. Des Weiteren besteht in beiden Fällen die Möglichkeit, einen 
Weißabgleich mit einem Reflexionsnormal durchzuführen (siehe Ab- 
schnitt 8.1.1). Auch treten viele der Ursachen für die Spektrenvariabilität 
(vgl. Abschnitt 2.5) in den Datensätzen auf. Ausnahmen sind hier die Ef- 
fekte der Erdatmosphäre, die aber auch bei industriellen Anwendungen 
meist zu vernachlässigen sind. 

Alle verwendeten Datensätze bestehen aus feinen Pulvern, sodass in 
jedem Pixel eine Mischung vorliegt, wenn es sich um eine Mischprobe 
handelt. Dadurch ist zu erwarten, dass sich die Mischungen wie in Ab- 
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Abbildung 8.1 Schematische Darstellung des Messaufbaus. 


schnitt 2.4.2 verhalten. Damit besteht zwischen den Reinspektren und 
den Spektren der Stoffgemische ein nichtlinearer Zusammenhang. Dies 
ist bei der Auswertung der auf KNN basierenden Ansätze besonders 
interessant, da die Stärke von KNN darin besteht, beliebige Funktionen 
approximieren zu können. 


8.1.1 Messaufbau 


Der Messaufbau, der zur Aufnahme der hyperspektralen Bilder bzw. 
Spektren verwendet worden ist, wird in Abbildung 8.1 dargestellt [5, 
67]. Die Aufnahmen werden in einer Dunkelkammer durchgeführt, um 
Störeinflüsse durch Fremdlicht möglichst ausschließen zu können. Als 
Lichtquelle dient eine 300 W Xenon-Bogenlampe des Herstellers LOT- 
QuantumDesign. Diese liefert über den gesamten relevanten Wellenlän- 
genbereich Licht mit ausreichender Leistung’. Das Licht wird über einen 
Spiegel auf die zu messende Probe gelenkt. 


1 Datenblatt: www.qd-europe.com/fileadmin/Mediapool/products/lightsources/pdf/ 
Lamp_spectra_and_irradiance.pdf 
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Abbildung 8.2 Setzkästen mit Quarzsandmischungen links und Farbpulvermischungen 
rechts [V7, V10]. 


Das von der Messprobe gestreute Licht trifft durch ein acousto-optic 
tunable filter (AOTF) auf eine EMCCD-Kamera (electron multiplying charge- 
coupled device). Mit Hilfe des AOTFs können Wellenlängenbereiche ausge- 
wählt werden, die durchgelassen werden. Alle anderen werden gesperrt. 
So können für die Wellenlängenbereiche hintereinander Grauwertbil- 
der aufgenommen werden, die anschließend zu einem hyperspektralen 
Bild zusammengesetzt werden. Als AOTF kommt das Modell HSi-300 
des Herstellers Gooch&Housego zum Einsatz, als Kamera das Modell 
iXon3897 EMCCD des Herstellers Andor. Ein Computer steuert beide 
Geräte und speichert die Bilder ab. 

Die hyperspektrale Messeinrichtung deckt einen Wellenlängenbereich 
von circa 448 nm bis circa 812nm ab, der für die Aufnahme der Daten- 
sätze voll ausgeschöpft wird. Die Bandbreiten der einzelnen Wellenlän- 
genkanäle variieren leicht, da sich beim AOTF prinzipbedingt nicht alle 
Bandbreiten für jede mittlere Wellenlänge einstellen lassen. Sie werden 
so gewählt, dass sie möglichst nahe an 4nm sind. Damit lässt sich der 
Wellenlängenbereich in A = 91 Wellenlängenkanäle einteilen, wobei 
die mittleren Wellenlängen der Kanäle von 450 nm in Anm-Schritten bis 
810 nm reichen. 

Zur Erstellung der Mischproben sind die Pulver entsprechend ihrer 
vorgegebenen Volumenanteile bzw. Anteilsvektoren (siehe Kapitel 2) in 
Dosen gefüllt worden. Durch Schütteln sind anschließend homogene Pul- 
vermischungen entstanden. Sowohl die Mischproben als auch die reinen 
Pulver sind zur Aufnahme in Setzkästen gefüllt worden (siehe Abbil- 
dung 8.2). Für die Datensätze werden von jeder Probe 20 x 20 Pixel große 
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Ausschnitte verwendet, sodass 400 Spektren für jedes Mischverhältnis 
zur Verfügung stehen. Damit wird sichergestellt, dass keine Ränder der 
Setzkästen oder deren Schatten im Datensatz eine Rolle spielen. Dies gilt 
nicht für Schatten, die die Proben selbst werfen, wie es bspw. rechts in 
Abbildung 8.2 der Fall ist. 

Als Referenz ist unter gleichen Bedingungen eine Aufnahme mit ei- 
nem Reflexionsnormal des Herstellers Spectralon angefertigt worden. 
Durch eine elementweise Division der Aufnahmen der Proben und der 
Referenzaufnahme wird die relative Reflektanz (2.4) berechnet, was auch 
als Weißabgleich bezeichnet wird. Die daraus resultierenden Spektren 
werden als Datenpunkte für die Auswertung der vorgestellten Verfahren 
verwendet. 


8.1.2 Datensätze bestehend aus gefärbten Quarzsanden 


Zur Erstellung der Datensätze sind gefärbte Quarzsande des Herstellers 
Qsand? verwendet worden. Für den ersten Datensatz, der von hier an als 
XQ3 bezeichnet wird, sind die Quarzsande mit den Bezeichnungen ,,Blau 
5/31”, „Rot 3/26” und „Gelb 1/17“ als Reinstoffe verwendet worden [66]. 
Die mittleren Spektren der Reinstoffe sind in Abbildung 8.3 zu sehen, 
wobei die gefärbten Flächen die Spektrenvariabilität andeuten. 

Die reinen Quarzsande sind systematisch, basierend auf unterschied- 
lichen Anteilsvektoren, miteinander vermischt worden. Dies ist so ge- 
schehen, dass alle möglichen Kombinationen an Anteilen erstellt worden 
sind, wobei die Schrittweite zwischen den Anteilen, die Anteilsstufe, 
S=i beträgt. Die daraus resultierenden 45 Anteilsvektoren sind in 
Abbildung 8.4 illustriert. 

Ein zweiter Datensatz, der als Xoa bezeichnet wird, bestehend aus 
gefarbten Quarzsanden desselben Herstellers, verwendet als Reinstoffe 
die Quarzsande mit den Bezeichnungen „Grün 6/18”, „Rot 3/4”, „Blau 
5/104” und „Gelb 1/59” [66]. Die mittleren Spektren der Reinstoffe sind 
in Abbildung 8.5 zu sehen, wobei die gefärbten Flächen die Spektrenva- 
riabilität andeuten. 


2 http://www.gsand.eu 
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Abbildung 8.3 Reinspektren des Datensatzes Xoz. Die Linien entsprechen den mittleren 
Spektren, während die gefärbten Flächen die Spektrenvariabilität darstellen. Um den 
Einfluss von Ausreißern zu verringern, stellt die untere Grenze der Flächen das 5. Perzentil 
und die obere das 95. Perzentil dar (Bestimmung unabhängig für jeden Wellenlängenkanal). 
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Abbildung 8.4 Resultierende Anteilsvektoren bei drei Komponenten und 5 = 1. Die 
Mischungen bzw. Anteilsvektoren sind durchnummeriert, wobei die Anteile der Kompo- 
nenten separat dargestellt sind. 


89 


8 Umsetzung und Analyse 


0,6 


Grün 6/18 —— Rot3/4 
Blau 5/104 —— Gelb 1/59 


T, rel 


0,0 E | | 4 
450 570 690 810 


Wellenlänge innm 


Abbildung 8.5 Reinspektren des Datensatzes Xo4. Die Linien entsprechen den mittleren 
Spektren, während die gefärbten Flächen die Spektrenvariabilität darstellen. Um den 
Einfluss von Ausreißern zu verringern, stellt die untere Grenze der Flächen das 5. Perzentil 
und die obere das 95. Perzentil dar (Bestimmung unabhängig für jeden Wellenlängenkanal). 


Hier wird als Anteilsstufe 5 = i verwendet. Damit sind hier mehr 
Komponenten enthalten, jedoch besteht ein größerer Abstand zwischen 
den resultierenden 56 Anteilsvektoren, die in Abbildung 8.6 dargestellt 
sind. Aus den dargestellten Anteilsvektoren wird deutlich, wie aufwen- 
dig es ist, Datensätze zu erstellen, wenn die Zahl der Komponenten 
steigt und die Anteilsstufe kleiner wird. Daher ist die Verwendung von 
Verfahren sinnvoll, die die Trainingsdaten künstlich erweitern. 

Die für die Datensätze verwendeten Quarzsande zeichnen sich da- 
durch aus, dass die einzelnen Körner nahezu sphärisch sind und der 
Durchmesser nur schwach variiert (circa 100 nm bis 300 nm). Dadurch 
sind die Vereinfachungen, die in den Abschnitten 2.4.2 und 2.6.2 getrof- 
fen werden, durchaus gerechtfertigt. Durch die kleine Korngröße ist zu 
erwarten, dass sich die Mischungen wie Mischungen im mikroskopi- 
schen Maßstab nach Abschnitt 2.4.2 verhalten. Damit sollten die daraus 
resultierenden Entmischungsverfahren innerhalb der modellbasierten 
Verfahren zu den besten Ergebnissen führen. Beispiele für Mischungen 
in Setzkästen sind in Abbildung 8.2 (links) dargestellt. 
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Abbildung 8.6 Resultierende Anteilsvektoren bei drei Komponenten und 5 = 1. Die 
Mischungen bzw. Anteilsvektoren sind durchnummeriert, wobei die Anteile der Kompo- 
nenten separat dargestellt sind. 


8.1.3 Farbpulverdatensatz 


Der dritte Datensatz besteht aus Farbpigmenten des Herstellers Kre- 
mer Pigmente GmbH & Co. KG?. Für den hier verwendeten Datensatz 
Xra sind die Farbpulver mit den Bezeichnungen „Chromoxid-Grün“, 
„Eisenglimmer-Violett”, ,,Ultramarin-Blau” und ,,Eisenoxid-Gelb” ge- 
nutzt worden [5]. Die mittleren Spektren der Reinstoffe sind in Abbil- 
dung 8.7 zu sehen, wobei die gefärbten Flächen die Spektrenvariabilität 
andeuten. Auch beim Datensatz Xp4 wird die Anteilsstufe 5 = : genutzt. 


3 www.kremer-pigmente.com 
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Abbildung 8.7 Reinspektren des Datensatzes Xp4. Die Linien entsprechen den mittleren 
Spektren, während die gefärbten Flächen die Spektrenvariabilität darstellen. Um den 
Einfluss von Ausreißern zu verringern, stellt die untere Grenze der Flächen das 5. Perzentil 
und die obere das 95. Perzentil dar (Bestimmung unabhängig für jeden Wellenlängenkanal). 


Im Gegensatz zu den Quarzsanden weisen die Partikel der Farbpul- 
ver eine hohe Varianz in ihrer Größe auf. Die Durchmesser reichen von 
wenigen Nanometern bis zu 600 nm. Damit ist eine Modellierung nach 
Abschnitt 2.4.2 ungenauer. Darüber hinaus neigen die Farbpulver zur 
Klümpchenbildung, was zu einer unregelmäßigen Oberfläche samt Schat- 
tenwurf führt (siehe Abbildung 8.2, rechts). Dies führt zu einer höheren 
Spektrenvariabilität, was auch in Abbildung 8.7 zu sehen ist. Insgesamt ist 
daher zu erwarten, dass die spektrale Entmischung des Datensatzes Ar4 
am anspruchsvollsten ist, verglichen mit den Datensätzen Xos und Aga- 


8.1.4 Datensätze in der Albedo-Domäne 


Für viele der folgenden Ergebnisse findet ein Vergleich zwischen den 
Ergebnissen bei Nutzung der vorgestellten Datensätze, die aus Reflek- 
tanzspektren bestehen, und der in die Albedo-Domäne transformier- 
ten Daten statt. Die Transformation erfolgt mit (2.11), wobei die Winkel 
Bo = 30° und $ = 0° genutzt werden. Das entspricht den Winkeln von Ka- 
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mera und Beleuchtung am Mittelpunkt des Setzkastens. Abweichungen 
nach Außen werden vernachlässigt. Die Oberflächennormale ist ohnehin 
nicht bekannt und darüber hinaus sind die Unterschiede in Abhängkeit 
der Winkel klein (siehe Abbildung 2.4). Der dadurch entstehende Fehler 
ist in Anbetracht der erreichbaren Genauigkeit vernachlässigbar (vgl. 
Ergebnisse in Abschnitt 8.3). 


8.1.5 Aufteilung der Datensätze 


Für die Verwendung und Beurteilung maschineller Lernverfahren müs- 
sen die Datensätze jeweils in einen Trainings-, einen Validierungs- und 
einen Testteil aufgeteilt werden (siehe Abschnitt 3.1.3). 

Der Testteil ist bei allen verwendeten Methoden gleich und wird auch 
bei Verfahren genutzt, die kein Training benötigen, um eine Vergleich- 
barkeit der Resultate gewährleisten zu können. Da die hier vorgestellten 
Verfahren dahingehend bewertet werden sollen, wie gut sie die Misch- 
eigenschaften der Datensätze abbilden, ist eine zufällige Einteilung der 
Datenpunkte nicht zielführend. Stattdessen ist die Trennung nach An- 
teilsvektoren sinnvoll, sodass in den Testdatensätzen nur unbekannte An- 
teilsvektoren enthalten sind. Andernfalls besteht die Gefahr, dass, wie bei 
einer Klassifikation, die bekannten Anteilsvektoren gelernt werden, aber 
keine Zwischenwerte, die für die Generalisierung bei der spektralen Ent- 
mischung benötigt werden. Um zusätzlich sogar einzelne Anteilswerte 
exklusiv im Testdatensatz zu haben, erfolgt die Aufteilung systematisch. 

Beim Datensatz Xoz mit 3 Komponenten und einer Anteilsstufe von 


S= ; werden alle Spektren fiir den Testdatensatz genutzt, bei denen 


mindestens ein Anteilswert nicht ganzzahlig durch 1 teilbar ist. Das ist 
für insgesamt 30 Anteilsvektoren der Fall. Bei den Datensätzen Xo4 und 
Arı kommen die Anteilsvektoren (und die dazugehörigen Spektren) in 
den Testdatensatz, bei denen mindestens ein Anteil den Wert i oder den 


Wert £ hat. Das ist für insgesamt 40 Anteilsvektoren der Fall. 

Im Gegensatz zu den Testdaten, die für alle Methoden gleich sind, 
variieren die Trainings- und die Validierungsdaten in Abhängigkeit der 
verwendeten Methode. Generell gilt, dass von den Daten, die für das Trai- 
ning bereitstehen, zufällige 10 % für die Validierung aufgespart werden. 


Für die Verfahren aus Kapitel 6 gilt: 
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= Die Trainings- und Validierungsdaten für das CNN zur spektralen 
Entmischung werden im Verhältnis von 9 zu 1 modellbasiert aus 
den Reinspektren erzeugt. 


= Die verbleibenden Spektren (also ohne Reinspektren und Testda- 
ten) werden beim GBM und beim LOM als Validierungsdaten zur 
Bestimmung der Nichtlinearitätskoeffizienten genutzt. 


Für die Verfahren aus Kapitel 7 gilt: 


= Für die KNN zur Datenerzeugung werden die Daten, die nicht 
Testdaten sind, zufällig in 90 % Trainings- und 10 % Validierungs- 
daten eingeteilt. 


« Für die CNN zur spektralen Entmischung werden die bereits aug- 
mentierten Daten zufallig in 90% Trainings- und 10% Validie- 
rungsdaten eingeteilt. 


Mit diesen Datensätzen werden nun in den folgenden Abschnitten 
die vorgestellten Methoden bewertet. Dabei ist allen Datensätzen ge- 
mein, dass für jeden Anteilsvektor viele Spektren existieren. Dies ist im 
industriellen Umfeld plausibel (vgl. Abschnitt 1.2), da die Erstellung 
von Stoffgemischen meist wesentlich aufwendiger ist als die Aufnahme 
unterschiedlicher Spektren derselben Gemische. 


8.2 Erzeugte Spektren 


In diesem Abschnitt werden die KNN aus Kapitel 7, die Daten für neue 
Anteilsvektoren erzeugen und damit vorhandene Datensätze vergrößern, 
bewertet. Hier werden zunächst die erzeugten Spektren direkt bewertet, 
indem sie mit Spektren aus den TIestdatensätzen verglichen werden. In 
Abschnitt 8.3 folgt eine Bewertung anhand Leistung bei der spektralen 
Entmischung. 


8.2.1 Gütemaße 


Damit die erzeugten Spektren mit den Spektren der Testdatensätze vergli- 
chen werden können, werden nach dem Training der KNN die Anteilsvek- 
toren zur Datenerzeugung vorgegeben, die auch in den Testdatensätzen 
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zu finden sind. Da in allen Verfahren aus Kapitel 7 die Spektrenvariabi- 
lität über eine zufällige Komponente berücksichtigt wird, ist eine Eins- 
zu-eins-Zuordnung von erzeugten und echten Spektren nicht möglich. 
Daher werden immer Mengen von Spektren miteinander verglichen, die 
mit dem gleichen Anteilsvektor korrespondieren. In den Testdatensätzen 
befinden sich jeweils 400 Spektren in jeder Menge. Bei der Datenerzeu- 
gung können, je nach Verfahren, sehr viele unterschiedliche Spektren 
erzeugt werden, jedoch werden zur Gewinnung der folgenden Ergebnis- 
se ebenfalls 400 Spektren für jeden Anteilsvektor erzeugt. 

Ein Vergleichskriterium solcher Spektrenmengen ist bisher nicht be- 
kannt. Naheliegend sind Maße, welche die Unterschiede zwischen Wahr- 
scheinlichkeitsverteilungen ermitteln, wie bspw. die Kullback-Leibler- 
Divergenz [69]. Diese Maße scheitern jedoch in der Praxis an der ho- 
hen Dimension der Spektren. Bei den vorhandenen Daten würden 91- 
dimensionale Wahrscheinlichkeitsdichtefunktionen miteinander vergli- 
chen werden. Bei jeweils 400 Datenpunkten ist es sehr unwahrschein- 
lich, dass überhaupt exakt gleiche Spektren in beiden Spektrenmen- 
gen vorhanden sind. In einem Vergleich haben damit die (aus den Da- 
ten geschätzten) Wahrscheinlichkeitsdichten an nahezu allen Stellen 
den Wert 0. 

Daher werden fiir die Bewertung der Spektrenmengen zwei Giitemafe 
eingeführt, die auf dem spektralen Winkel (engl. spectral angle, SA) 


( aa ) 8.1) 
Esa = arccos | ————— ; 
= [all o 


basieren, der auf der Kosinus-Ahnlichkeit zwischen den Spektren 6 und 
v* basiert. Er ist ein gängiges Gütekriterium bei der Bewertung der Ahn- 
lichkeit von Spektren. 

Um die Lage der Spektrenmengen insgesamt zu bewerten, wird als 
erstes Gütemaß der spektrale Winkel zwischen den mittleren Spektren 
(engl. mean spectra spectral angle, MSSA) der erzeugten Spektrenmenge 
Y, und der wahren Spektrenmenge Y; eingeführt: 


(iv, flys) 
Emssa = arccos | ——— |. (8.2) 
TARA 
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Bei den Mittelwerten handelt es sich um Stichprobenmittelwerte ge- 
maf (7.3). Als zweites eingeführtes Gütemaß wird der durchschnittliche 
minimale spektrale Winkel (engl. average minimal spectral angle, AMSA) 
eingeführt: 


S ^ x * 
EAMSA = + > min (arccos (re) . (8.3) 
sel ` 


~ * 
löss| ` [[Vas 


Hier fließt für alle wahren Spektren v}, einer Spektrenmenge im Testda- 
tensatz das erzeugte Spektrum d,; ein, welches den kleinsten spektralen 
Winkel zu ersterem aufweist. Um die ganze Spektrenmenge abzubil- 
den, wird davon der Mittelwert gebildet. Das Minimum wird wegen 
der erwähnten fehlenden Zuordenbarkeit der Spektren genutzt. So wird 
geprüft, ob es zu jedem Spektrum ein möglichst ähnliches erzeugtes 
Spektrum gibt, bzw., wie weit die Spektren auseinander liegen. Mit dem 
AMSA soll vor allem die Spektrenvariabilität der erzeugten Spektren 
bewertet werden, mit dem MSSA die Mischcharakteristik. Letztere wird 
jedoch ebenfalls durch den AMSA bewertet, sodass am besten immer 
beide Gütemaße betrachtet werden. 

Alle KNN zur Erzeugung von Augmentierungsdaten werden auch 
mit Spektren in der Albedo-Domäne (siehe Abschnitt 2.4.2) trainiert. Auf 
diese Weise soll geprüft werden, ob damit bessere Ergebnisse erzielt 
werden können. Es handelt sich nämlich bei allen untersuchten Daten- 
sätzen um Pulvermischungen, die sich in der Albedo-Domäne einfacher 
modellieren lassen (siehe Abschnitt 2.6.2). Die vorgestellten Gütemaße 
werden hier immer auf die Reflektanzspektren angewandt, wie sie auch 
in den Iestdatensätzen enthalten sind. Werden Spektren durch die Ver- 
fahren in der Albedo-Domäne erzeugt, werden diese vor Berechnung 
der Gütemaße mit (2.10) in die Reflektanz-Domäne transformiert. Wür- 
den stattdessen die Testspektren zur Berechnung der Gütemaße in die 
Albedo-Domäne transformiert, so würden sich die spektralen Winkel 
zwischen den Spektren und somit die verwendeten Gütemaße ändern. 


8.2.2 Konfiguration der Verfahren 


Während in Kapitel 7 die Methoden an sich beschrieben sind, werden in 
diesem Abschnitt alle Parameter dargestellt, die bei der Erzeugung der 
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Ergebnisse genutzt werden. Bestimmt werden die Parameter durch eine 
manuelle Rastersuche mit Hilfe der Validierungsdatensätze. 


8.2.2.1 Generatives Faltungsnetz 


Die Struktur des generativen Faltungsnetzes (engl. generative convolutio- 
nal neural network, GCNN) ist bereits in Abbildung 7.1 dargestellt. Für 
die folgende Auswertung werden in jeder Schicht Faltungskerne der 
Länge I = 5 verwendet. In der ersten Schicht werden abweichend davon 
Faltungskerne der Länge I = 23 genutzt. Das Auffüllen mit Nullen in 
den transponierten Faltungsschichten erfolgt mit einem Faktor von 2, 
was am Ausgang 92 Werte ergibt. Da davon nur 91 für die zur Verfügung 
stehenden Datensätze benötigt werden, wird der letzte Ausgangswert 
ignoriert. Die Anzahlen der Merkmalskarten sind, vom Eingang zum 
Ausgang, in der jeweiligen Schicht P + Z, 32, 32, 16 und 1. Dabei sind P 
die Anzahl der Komponenten im Datensatz, hier also 3 bzw. 4, und Z 
die Anzahl der zufälligen Eingangsgrößen. Für letztere hat sich der Wert 
Z = 3als sinnvoll erwiesen. Für jede der zufälligen Eingangsgrößen wird 
eine Standardnormalverteilung verwendet. Es hat sich herausgestellt, 
dass die Verwendung einer Gleichverteilung keinen Unterschied macht, 
da sich das GCNN an die verwendete Verteilung anpasst. 

Beim Training wird der Adam-Optimierer (siehe Abschnitt 3.2.3.2) mit 
einer Lernrate von & = 0,01 verwendet. Für die restlichen Parameter des 
Adam-Optimierers werden ßı = 0,9 und ß, = 0,999 verwendet (wie 
von Kingma und Ba [61] empfohlen). Das Training wird für jeweils 4000 
Epochen durchgeführt, wobei in jedem Trainingsschritt der vollständige 
Trainingsdatensatz verwendet wird. Trotz der großen Zahl an Epochen 
bereitet Überanpassung hier keine Probleme, was die Überlegungen in 
Abschnitt 7.1 unterstreicht. 

Ebenfalls in die Ergebnisse fließen die Varianten des GCNNs ein. Zum 
einen wird, wie in Abschnitt 7.1.3.1 beschrieben, die Varianz der zu- 
fälligen Eingänge bei der Datenerzeugung verdoppelt. Diese Variante 
wird in den Ergebnissen mit GCNN-2 gekennzeichnet. Zum anderen 
wird die Regularisierung mit der Kovarianzmatrix aus Abschnitt 7.1.3.2 
betrachtet, was mit GCNN-Cov bezeichnet wird. Bei letzterer wird für 
ky, aus (7.2) der Wert 107 genutzt. Dieser große Wert resultiert aus den 
sich stark unterscheidenden Wertebereichen der Teilverlustfunktionen. 
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8.2.2.2 Regularisierendes Generative Adversarial Network 


Bei der Realisierung des RGANs entspricht der Generator dem im vor- 
hergehenden Abschnitt vorgestellten GCNN. Als Diskriminator wird 
ein KNN verwendet, das aus drei vollstandig verbundenen Schichten 
besteht. Die Anzahl an Neuronen betragt vom Eingang zum Ausgang 
64, 16, und 1. Als Aktivierungsfuntkion wird in jeder Schicht des Dis- 
kriminators die logistische Funktion (3.7) verwendet, welche sich in den 
Versuchen als vorteilhaft herausgestellt hat. 

Darüber hinaus hat sich gezeigt, dass es zu besseren Ergebnissen führt, 
wenn die Gewichte von Generator und Diskriminator nicht alternie- 
rend angepasst werden. Stattdessen werden die des Generators nur in 
jedem siebten Trainingsschritt trainiert, wobei in der Verlustfunktion (7.5) 
kr = 10 genutzt wird. Bei allen anderen Trainingsschritten wird nur der 
Diskriminator trainiert. 

Beim Training wird ebenfalls der Adam-Optimierer mit $4 = 0,9 und 
Bo = 0,999 verwendet. Außerdem wird in jedem Trainingsschritt der 
vollständige Trainingsdatensatz genutzt, sodass die Anzahl an Epochen 
der Anzahl der Trainingsschritte entspricht. Für jeden Datensatz werden 
eine individuelle Anzahl an Epochen und eine individuelle Lernrate 
verwendet. Der Datensatz XQ3 wird mit einer Lernrate a = 0,01 fiir 6000 
Epochen trainiert. Bei den Datensätzen Xg4 und Ar, wird ein Vortraining 
durchgeführt, bei dem nur der Generator mit der Verlustfunktion (3.4) 
trainiert wird. Dieses Vortraining erfolgt bei beiden Datensätzen für 
450 Epochen mit « = 0,01. Anschließend werden beide Datensätze mit 
a = 10”? für 4000 Epochen trainiert. Das Vortraining ist bei den Datensät- 
zen mit 4 Komponenten notwendig, da hier die Anteilsvektoren weiter 
auseinander liegen als bei Datensatz Xg3. Dadurch ist der Mischzusam- 
menhang für das RGAN schwieriger zu erfassen. 

Wird bei der Datenerzeugung ebenfalls der Diskriminator verwendet, 
was hier mit RGAN-DE abgekürzt wird, werden die Parameter ¢, = 100 
und (> = 0,01 verwendet (siehe Abschnitt 7.2.2). 
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8.2.2.3 GauB-Prozess-inspirierte neuronale Netze 


Bei der Augmentierung mit Gauß-Prozess-inspirierten neuronalen Net- 
zen (GPNN) werden die Netze wie in Abbildung 7.5 realisiert, wobei in 
jeder vollstandig verbundenen Schicht 32 Neuronen verwendet werden. 

Für das Training der neuronalen Netze N, und N; wird bei allen Da- 
tensätzen der Adam-Optimierer mit den Parametern « = 0,01, Bı =0,9 
und $ = 0,999 verwendet. Die Anzahl an Epochen ist unterschiedlich. 
Bei den Datensätzen Xoz und Xo, werden beide neuronale Netze für 
2000 Epochen trainiert. Beim Datensatz Xp4 wird das neuronale Netz 
Nim, für 3000 Epochen trainiert, während Ny, für 4000 Epochen trai- 
niert wird. Auch hier hat es sich als vorteilhaft erwiesen, den ganzen 
Trainingsdatensatz in jedem Trainingsschritt zu verwenden. 

Als Vergleich wird in den Ergebnissen eine Variante dieses Verfahrens 
untersucht, bei dem nur die Mittelwertvektoren zur Augmentierung ge- 
nutzt werden. Diese wird mit GPNN-M abgekürzt. So kann der Einfluss 
der Kovarianzfunktion ermittelt werden. 


8.2.3 Ergebnisse 


Für die Ergebnisse wird für jeden Anteilsvektor im Testdatensatz eine 
Menge an Spektren mit den vorgestellten Verfahren erzeugt. Für jeden 
Anteilsvektor werden damit und mit den dazugehörigen Testspektren 
die Gütemaße eyssa und Eamsa berechnet. Der Prozess aus Training 
und Datenerzeugung wird jeweils 5 mal durchgeführt. Für jeden An- 
teilsvektor wird der Mittelwert von €mssa und esmsa bezüglich der Wie- 
derholungen berechnet und in den Ergebnissen dargestellt. Da es sich 
bei allen Ergebnissen in diesem Abschnitt um Mittelwerte bezüglich der 
Wiederholungen handelt, werden diese nicht extra gekennzeichnet. 

Die für die Darstellung verwendeten Box-Plots deuten also die Ver- 
teilung der Gütemaße bezüglich der unterschiedlichen Anteilsvektoren 
an. Bei den Box-Plots in diesem Abschnitt schließen die „Antennen“ alle 
Anteilsvektoren eines Datensatzes ein. Die Box geht vom 25. bis zum 
75. Perzentil und der Strich gibt den Median an. Alle Verfahren werden 
sowohl auf Reflektanzspektren als auch auf Spektren, die zuvor in die 
Albedo-Domäne transformiert wurden, angewandt. Zur Berechnung 
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Abbildung 8.8 Darstellung von €mssa und €amsa als Box-Plots für den Datensatz Xos. 


von Eyssa und Esmsı Werden letztere zuerst rücktransformiert (siehe 
Abschnitt 8.2.1). 

In Abbildung 8.8 ist oben das Gütemaß eyyssı für den Datensatz XQ3 
zu sehen. Den besten Median weist das Verfahren GCNN-Cov auf. Das 
lässt vermuten, dass sich die Regularisierung mit den Kovarianzmatri- 
zen positiv auf das mittlere Spektrum einer Spektrenmenge auswirkt. 
Eine bessere Streuung erreicht das RGAN bei ähnlichem Median. Auch 
hier scheint die Regularisierung positive Auswirkungen zu haben. Den 
schlechtesten Median weisen die Verfahren GPNN und GPNN-M auf. 
Dabei sind die neuronalen Netze jedoch kleiner als bei den übrigen 
Verfahren. Der Einsatz der Verfahren in der Albedo-Domäne liefert ähn- 
liche Ergebnisse. Sie sind in Abhängigkeit des genutzten Verfahrens zur 
Datenerzeugung teilweise leicht besser, teilweise leicht schlechter. Hier 
lernen die neuronalen Netze die nichtlinearen Zusammenhänge bei Ver- 
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wendung der Reflektanzspektren ahnlich gut wie bei Verwendung der 
Albedo-Domäne. Da in das Gütemaß €ļyssa nur die mittleren Spektren 
eingehen, fallen die Unterschiede der Varianten, welche die Spektrenva- 
riabilität realistischer modellieren sollen, nicht besonders hoch aus. 

Um diese Unterschiede hervorzuheben, wird das Gütemaß e usa ge- 
nutzt, das für den Datensatz Xoz unten in Abbildung 8.8 dargestellt 
wird. Dabei liefert die Datenerzeugung mit dem GCNN-Cov die besten 
Ergebnisse, gefolgt vom RGAN und dem GPNN. Das ist nicht verwun- 
derlich, da diese Verfahren besonders auf eine möglichst realistische 
Modellierung der Spektrenvariabilität ausgelegt sind (siehe Kapitel 7). 
Beim RGAN bringt der Einsatz des Diskriminators bei der Datenerzeu- 
gung keinen Vorteil (RGAN-DE). Der Ansatz GPNN-M ist bei weitem 
am schlechtesten, weil hier nur mittlere Spektren erzeugt werden. Da- 
zwischen reihen sich die beiden übrigen Ansätze ein, wobei hier die 
Verdopplung der Varianz bei der Datenerzeugung (GCNN-2) leichte Vor- 
teile bringt. Bereits an dieser Stelle sei auf das Beispiel in Abbildung B.10 
im Anhang verwiesen. Dort deckt sich der visuelle Eindruck weitestge- 
hend mit den Ergebnissen der Gütemaße. Auch wenn es sich dabei um 
ein Beispiel handelt, sind die resultierenden Spektren charakteristisch 
für die einzelnen Verfahren. 

In Abbildung 8.9 wird oben das Gütemaß eyjssa für den Datensatz Xo4 
dargestellt. Es fällt zunächst auf, dass die Werte weniger stark streuen als 
beim Datensatz Xos. Das trifft auch auf das Gütemaß e usa Zu, das un- 
ten in Abbildung 8.9 zu sehen ist. Hier funktioniert das RGAN am besten, 
wobei der Einsatz des Diskriminators bei der Datenerzeugung (RGAN- 
DE) keinen Vorteil bringt. Wie auch beim Datensatz Xo; sind die beiden 
GPNN-Verfahren am schlechtesten, was darauf hindeutet, dass das klei- 
nere Netz und der Weg über die Gauß-Prozesse insgesamt schlechter 
funktioniert. Das Verfahren, was beim Datensatz as am besten funktio- 
niert (GCNN-Cov), bringt hier beim Median keinen Vorteil im Vergleich 
zu den übrigen GCNN. Die Streuung wird sogar größer, sodass der posi- 
tive Effekt spezifisch für den vorherigen Datensatz zu sein scheint. Wie 
auch beim vorherigen Datensatz ist der Unterschied zwischen Nutzung 
der Reflektanzspektren und der Spektren in der Albedo-Domäne klein. 

Beim Gütemaß eıms, unten in Abbildung 8.9 ergibt sich ein ähnli- 
ches Bild wie beim ersten Datensatz, der aus gefärbten Quarzsanden be- 
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Abbildung 8.9 Darstellung von €mssa und €amsa als Box-Plots für den Datensatz Xo4. 


steht. Auch hier sind die besten Ergebnisse mit dem GCNN-Cov-Ansatz 
möglich, gefolgt von beiden RGAN, die im Vergleich untereinander fast 
identische Ergebnisse liefern. Dann kommen hier jedoch zunächst die üb- 
rigen GCNN-basierten Ansätze, wobei auch hier GCNN-2 einen kleinen 
Vorsprung hat. Auch hier sind die Verfahren und Varianten am besten, 
die eingeführt werden, um eine möglichst reale Spektrenvariabilität zu 
modellieren. Ausnahme ist hier das GPNN, welches schlechter als alle 
anderen Verfahren funktioniert. Die Variante GPNN-M ist noch schlech- 
ter, jedoch werden hier nur Mittelwertspektren erzeugt. Auch hier deckt 
sich der visuelle Eindruck in Abbildung B.11 im Anhang weitestgehend 
mit den Ergebnissen der Gütemaße. 

Beim Datensatz Ar, fallen beide Gütemaße, die in Abbildung 8.10 
dargestellt sind, für alle Methoden schlechter aus als bei den beiden 
Quarzsanddatensätzen. Das gilt sowohl für den Median als auch für die 
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Abbildung 8.10 Darstellung von €mssa und €aysa als Box-Plots für den Datensatz Xp4. 


Streuung. Bezüglich des Gütemaßes emssa liefert das RGAN hier die 
besten Ergebnisse, wobei die Verwendung des Diskriminators zur Da- 
tenerzeugung auch hier zu fast identischen Ergebnissen führt. Ersteres 
gilt jedoch nur für die Anwendung in der Albedo-Domäne. Hier sind 
sowohl Median als auch Streuung vergleichsweise gering. Darauf folgen 
die Ansätze, die auf dem GCNN basieren, wobei hier, wie auch beim 
Datensatz XQ4, die Variante GCNN-Cov etwas schlechter funktioniert. 
Dies lässt darauf schließen, dass die Ursache dafür im größeren Abstand 
der Anteilsvektoren in den Trainingsdaten liegt. Auch hier funktionieren 
die GPNN-Verfahren am schlechtesten, jedoch mit einem geringeren 
relativen Unterschied als bei den beiden vorherigen Datensätzen. Mit 
Ausnahme der GPNN-Verfahren gibt es hier eine deutliche Verbesse- 
rung durch die Anwendung in der Albedo-Domäne, vor allem was die 
Streuung anbelangt. Obwohl die verwendeten KNN in der Lage sind, 
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nichtlineare Zusammenhänge abzubilden, ist es durchaus hilfreich, sie 
auf den einfacheren Mischzusammenhang (2.18) anzuwenden. Dabei ist 
anzumerken, dass die KNN immer noch nichtlineare Zusammenhänge 
lernen, da das Modell (2.18) nur unter idealen Umständen gilt, die bei 
den verwendeten realen Daten nicht gegeben sind. 

In Abbildung 8.10 ist unten das Gütemaß es für den Datensatz 
Xp4 zu sehen. Insgesamt funktioniert hier das GCNN am besten, wobei 
die Variante GCNN-Cov die beste ist. Dann kommt das RGAN und 
zuletzt das GCNN. Am schlechtesten funktioniert, wie zu erwarten, die 
Variante GPNN-M, weil nur Mittelwertspektren erzeugt werden. Wie 
auch beim Gütemaß emssa bringt die Anwendung in der Albedo-Domäne 
bei diesem Datensatz, mit Ausnahme des GPNNs, einen kleinen Vorteil 
beim Median und einen größeren bei der Streuung. Letztere ist beim 
RGAN und RGAN-DE am besten. 

Über alle Datensätze und beide Gütemaße hinweg liefert das RGAN 
gute Ergebnisse, vor allem, was die Streuung anbelangt. Damit ist die 
Nutzung des GANS als Regularisierung durchaus sinnvoll. Dabei macht 
es keinen merklichen Unterschied, ob der Diskriminator zur Datenerzeu- 
gung eingesetzt wird oder nicht. Letzteres liegt auch an den verwendeten 
Gütemaßen. Beim Gütemaß eyssa (8.2) fallen die durch den Diskrimi- 
nator aussortierten Spektren bei der Bildung des mittleren Spektrums 
nicht ins Gewicht. Durch die Nutzung des Minimum-Operators in (8.3) 
werden diese beim Gütemaß eyyssı in den meisten Fällen nicht berück- 
sichtigt, da andere Spektren näher an den Spektren der Testdatensätze 
liegen. Darüber hinaus findet auch hier eine Mittelwertbildung statt. 

Besonders beim Gütemaß e usa ist die Variante GCNN-Cov am bes- 
ten. Dabei ist zu beachten, dass hierfür die Kovarianzmatrizen, die mit 
den Anteilsvektoren korrespondieren, berechnet werden müssen. Dies 
ist nur dann möglich, wenn viele Spektren pro Anteilsvektor im Daten- 
satz enthalten sind. Ein manuell erstellter Trainingsdatensatz, wie er im 
industriellen Umfeld notwendig ist, erfüllt diese Anforderung. 

Bei allen Datensätzen sind beide Gütemaße beim GPNN am schlech- 
testen. Auch diese Methoden funktionieren nur bei Datensätzen, bei 
denen viele Spektren pro Anteilsvektor enthalten sind. Der Vorteil der 
Methoden ist der geringe Trainingsaufwand der KNN. Dieser ist beim 
GCNN und vor allem beim RGAN deutlich höher. 
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Die Anwendung der Verfahren in der Albedo-Domäne führt insgesamt 
zu recht ähnlichen Ergebnissen. Ausnahme ist der Datensatz Xp4, wo 
eine Verbesserung erkennbar ist. Die verwendeten KNN sind also in der 
Lage, diesen Zusammenhang aus den Daten zu lernen, jedoch gibt es in 
Abhängigkeit von Datensatz und verwendetem Verfahren geringfügige 
Unterschiede. 

In Abbildung 8.11 ist ein Beispiel für erzeugte Spektren für den Daten- 
satz Xpı und einen Anteilsvektor zu sehen. Beispiele für die Datensätze 
Xoz und Xo finden sich im Anhang in den Abbildungen B.10 und B.11. 
Dabei werden neben den 400 Originalspektren aus dem Testdatensatz 
für jede Methode und jede Variante 400 Spektren erzeugt. Ausnahme 
ist die Variante GPNN-M, wo ein Spektrum pro Anteilsvektor genügt, 
da hier nur mittlere Spektren genutzt werden. Auch wenn es sich dabei 
um ein Beispiel handelt, ist die gezeigte Spektrenvariabilität, unabhän- 
gig vom Anteilsvektor, charakteristisch für die Methoden. Die Lage der 
mittleren Spektren unterscheidet sich jedoch in Abhängigkeit des An- 
teilsvektors, sodass hier vor allem die Spektrenvariabilität und damit 
€amsa Von Interesse ist. 

Zunächst ist die Spektrenvariabilität bei allen Methoden geringer, au- 
Ser beim GPNN und beim GCNN-Cov. Bei beiden Methoden wird die 
Kovarianzmatrix der Spektren, die mit einem Anteilsvektor korrespon- 
dieren, geschätzt. Damit ist nicht verwunderlich, dass beim GCNN-Cov 
das Gütemaß €amsa besonders gut ausfällt, auch wenn die erzeugten 
Spektren eine Glättung aufweisen. Diese entsteht aufgrund der zusam- 
mengesetzten Kostenfunktion, deren erster Teil zu einer Mittlung über 
die Spektrenmengen führt, was bei den anderen beiden Varianten noch 
deutlicher wird. Dort wird nur der erste Teil der Kostenfunktion genutzt. 
Beim GPNN täuscht der visuelle Eindruck. Das Gütemaß eymsa fällt 
hier schlechter aus, weil auch die mittleren Spektren nicht so gut syn- 
thetisiert werden (siehe e€mssa). Außerdem ist im Beispiel eine zu hohe 
Spektrenvariabilität im unteren Wellenlängenbereich zu sehen. 

Bei Methoden mit geringerer Spektrenvariabilität als in den realen 
Spektren aus dem Testdatensatz verhält es sich, wie in Abschnitt 7.1.3 
beschrieben. Es ist beim GCNN sehr wahrscheinlich, Spektren nahe des 
mittleren Spektrums zu erzeugen. Durch die Verdopplung der Varianz 
der zufälligen Eingangsgrößen (GCNN-2) erhöht sich die Spektrenvaria- 
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GCNN 


GCNN-2 GCNN-Cov 


GPNN-M 


RGAN RGAN-DE 


Abbildung 8.11 Beispiele für mit unterschiedlichen Verfahren und dem Anteilsvektor a = 
[0;0,6;0,2;0,2 ]" generierte Spektren des Datensatzes 4. Zu Gunsten der Lesbarkeit 
wird auf eine Achsenbeschriftung verzichtet. Die Achsen sind in allen Bildern gleich skaliert 
und die relative Reflektanz ist über der Wellenlänge von 450 nm bis 810 nm aufgetragen. 
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bilität leicht im Vergleich zur ursprünglichen Methode (GCNN). Auch 
die Regularisierung mit einem GAN führt zu einer ausgeprägteren Spek- 
trenvariabilität (RGAN), auch wenn diese noch deutlich geringer ausfällt 
als in den Testdaten. Die Verwendung des Diskriminators während der 
Datenerzeugung (RGAN-DE) filtert einzelne Ausreißer heraus, was im 
Beispiel bei großen Wellenlängen am besten zu sehen ist. 

Im nächsten Abschnitt wird unter anderem der Einfluss der Augmen- 
tierung mit den hier ausgewerteten Verfahren auf die Performanz der 
spektralen Entmischung untersucht. Dabei stellt sich die Frage, ob eine 
möglichst realistische Spektrenvariabilität von Vorteil ist oder bspw. die 
des GCNNs ausreicht. Denn, auch wenn es wünschenswert wäre, wird 
kein KNN für die spektrale Entmischung in der Lage sein, vollständig 
invariant gegenüber der Spektrenvariabilität zu sein. So könnte eine zu 
hohe Spektrenvariabilität und die damit verbundene Überlappung von 
Spektren, die mit ähnlichen Anteilsvektoren korrespondieren, problema- 
tisch sein. In diesem Fall wären Methoden von Vorteil, die Spektren mit 
einer geringeren Spektrenvariabilität erzeugen. 


8.3 Spektrale Entmischung 


In diesem Abschnitt werden alle in den Kapiteln 6 und 7 vorgestellten 
Verfahren bezüglich ihrer Performanz bei der spektralen Entmischung 
bewertet. Dazu wird das CNN aus Kapitel 5 mit den entsprechend er- 
zeugten bzw. erweiterten Trainingsdaten trainiert. Zum Vergleich wird 
das CNN auch mit den jeweiligen ursprünglichen Trainingsdaten der 
Datensätze trainiert. Darüber hinaus werden die vorgestellten Verfahren 
auch mit Standardverfahren aus Abschnitt 2.6 verglichen. 


8.3.1 Gütemaß und Darstellung der Ergebnisse 


Um die Performanz der spektralen Entmischung zu bewerten, wird das 
quadratische Mittel des Fehlers (engl. root-mean-square error, RMSE) zwi- 
schen einem geschätzten Anteilsvektor â und dem dazugehörigen wah- 
ren Anteilsvektor a* verwendet: 


Lye. 
ERMSE = \| p a — a*|[5. (8.4) 
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Dieser wird fiir alle Spektren bzw. Anteilsvektoren im Testdatensatz 
berechnet. Das Gesamtergebnis bezüglich eines Datensatzes wird als Box- 
Plot dargestellt. Da hier eine Eins-zu-eins-Zuordnung der Datenpunkte 
möglich ist, dienen die individuellen Datenpunkte als Grundlage für 
die Box-Plots. Um die Darstellung durch Ausreißer nicht zu sehr zu 
verzerren, schließen die „Antennen“ die Datenpunkte vom 3. bis zum 
97. Perzentil ein. Die Box geht, wie üblich, vom 25. bis zum 75. Perzentil 
und der Strich gibt den Median an. 

Wird der Trainingsprozess mehrfach durchgeführt, so wird für jeden 
Datenpunkt der Mittelwert über die Trainingsdurchläufe berechnet. Die- 
se Mittelwertbildung wird in den Formeln nicht besonders gekennzeich- 
net. Bei den Verfahren aus Kapitel 6 werden jeweils 5 Wiederholungen 
des Trainings durchgeführt. Bei denen aus Kapitel 7 sind es 25, d.h. 5 
Trainingsdurchgänge für jede Wiederholung bei der Datenerzeugung 
(siehe Abschnitt 8.2.3). 


8.3.2 Vergleichsverfahren 


In diesem Abschnitt werden die Ergebnisse der Verfahren vorgestellt, die 
zum Vergleich herangezogen werden. Das sind zunächst die Standard- 
verfahren aus Kapitel 2. Diese werden stellvertretend für modellbasierte 
Verfahren als Vergleich herangezogen und decken auch die Verfahren 
aus Abschnitt 4.1 ab. Dort werden die Mischmodelle in Kombination mit 
KNN genutzt, um zusätzlich die Reinspektren zu ermitteln. Letztere sind 
hier jedoch bekannt, sodass sie bei der spektralen Entmischung verwen- 
det werden können. Damit können direkt die modellbasierten Verfahren 
aus Kapitel 2 genutzt werden. Darüber hinaus wird das CNN für die 
spektrale Entmischung aus Kapitel 5, das nur mit den ursprünglichen 
Trainingsdaten trainiert wird, für den Vergleich genutzt. Die Verfahren 
aus Kapitel 2 benötigen keine Trainingsdaten. Bei diesen werden die 
Testdatensätze direkt entmischt. Bei den Verfahren, die auf dem LMM, 
ELMM oder GLMM basieren, und beim CNN zur spektralen Entmi- 
schung werden die Daten zusätzlich in der Albedo-Domäne entmischt. 
Bei den Verfahren, die auf dem FM, GBM und LOM basieren, ist dies 
nicht durch die Theorie motivierbar. 
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8.3.2.1 Konfiguration der Verfahren 


Das FCLS (2.17) sowie diejenigen Verfahren, die auf dem ELMM (2.13) 
und GLMM (2.14) basieren, werden, wie in Abschnitt 2.6.1 beschrieben, 
angewendet. Die spektrale Entmischung, die auf den nichtlinearen Misch- 
modellen FM, GBM (2.8) und LOM (2.9) basiert, wird mit einem gradien- 
tenbasierten Liniensuchverfahren durchgeführt (vgl. Abschnitt 3.2.3.2). 
Dabei werden als Initialisierung, wie von Halimi et al. [41] vorgeschla- 
gen, die Anteilsvektoren verwendet, die das FCLS ermittelt hat. Für die 
Verfahren, die ohne Trainingsdaten auskommen, wird jeweils eine Rein- 
spektrenmatrix M benötigt. Dafür werden für jeden der P Reinstoffe die 
mittleren Spektren fì, verwendet, die aus den Reinspektrenmengen M 
mit Hilfe von (6.5) ermittelt werden. 

Das CNN für die spektrale Entmischung wird in den Ergebnissen 
mit CNN abgekürzt, wenn es mit den ursprünglichen, d.h. nicht aug- 
mentierten, Trainingsdaten trainiert wird. Es wird so verwendet, wie 
es in Abbildung 5.3 dargestellt ist. Für die Länge der eindimensionalen 
Faltungskerne hat sich der Wert I = 3 als ausreichend herausgestellt. Für 
die eindimensionalen Pooling-Schichten ist eine Größe der betrachteten 
Nachbarschaft von 2 sinnvoll. Für größere Werte verschwimmen die 
Positionen der gefundenen Merkmale zu stark, was hier nicht gewünscht 
ist. Die Faltungsschichten haben vom Eingang beginnend 16, 32 und 64 
Merkmalskarten. Die vollständig verbundenen Schichten bestehen aus 
64 und P Neuronen, wobei letzteres der Anzahl der beteiligten Reinstoffe 
entspricht. Als Optimierer kommt der Adam-Optimierer zum Einsatz, 
wobei die Parameter 6, = 0,9, 62 = 0,999 und « = 0,01 verwendet wer- 
den. Außerdem werden auch hier die besten Ergebnisse erzielt, wenn in 
jedem Trainingsschritt der vollständige Trainingsdatensatz genutzt wird. 

Die Anzahl an Epochen, die für das Training des CNNs nötig ist, 
hängt vom verwendeten Datensatz ab und davon, ob Reflektanzspektren 
verwendet werden oder die Spektren zuvor in die Albedo-Domäne um- 
gerechnet werden. Sie wird in Tabelle 8.1 dargestellt. Die Unterschiede 
zwischen den Datensätzen kommen zustande, weil beim Datensatz as 
die Anteilsvektoren einen kleineren Abstand zueinander haben. Dadurch 
setzt die Überanpassung wesentlich später ein. 
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Tabelle 8.1 Epochenzahl für das Training des CNNs fiir die spektrale Entmischung. 


Datensatz 


Domäne as Xoa Ara 
Reflektanz 81 21 21 


Albedo 61 21 21 
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Abbildung 8.12 Darstellung von Erms als Box-Plots für den Datensatz Xos- 


8.3.2.2 Ergebnisse 


Das Gütemaß €rmsg wird in den Abbildungen 8.12 bis 8.14 dargestellt, 
wobei in einer Abbildung jeweils ein Datensatz betrachtet wird. Allen 
Datensätzen gemein ist, dass bei den modellbasierten Verfahren die in 
die Albedo-Domäne transformierten Spektren wesentlich bessere Ergeb- 
nisse liefern als die Reflektanzspektren. Das liegt daran, dass es sich 
bei den Datensätzen um Partikelmischungen handelt und damit eine 
Mischung nach Abbildung 2.3 stattfindet. Beim CNN gibt es zwischen 
den Domänen fast keinen Unterschied. So ist es plausibel, dass das CNN 
die Umrechnung in die Albedo-Domäne implizit durchführt. 

Bei allen Datensätzen bringen die nichtlinearen Mischmodelle GBM 
und LOM keinen Vorteil. Das liegt daran, dass die Optimierung der Nicht- 
linearitätskoeffizienten schwierig ist und kein gutes Minimum gefunden 
wird. Beim Datensatz Xos funktioniert das auf dem ELMM basierende 
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Abbildung 8.13 Darstellung von egysp als Box-Plots für den Datensatz XQ4. 


Verfahren am besten von allen untersuchten modellbasierten Verfahren. 
Das liegt daran, dass hier auch die Spektrenvariabilität berücksichtigt 
wird. Durch das GLMM, was weitere Freiheitsgrade hat, kann keine 
Verbesserung mehr erzielt werden. Bei den Reflektanzspektren wird da- 
durch sogar das Ergebnis wieder verschlechtert. Am besten, vor allem 
bei der Streuung, aber auch beim Median, ist das CNN, welches bei die- 
sem Datensatz genügend Trainingsdaten zur Verfügung hat, um allen 
betrachteten Modellen überlegen zu sein. 

Beim Datensatz XQ, fallen die Ergebnisse bei den modellbasierten Ver- 
fahren in der Albedo-Domäne ähnlich aus wie beim Datensatz Xo3, 
nur dass das auf dem GLMM basierende Verfahren minimal besser 
funktioniert. Das war zu erwarten, da beide Datensätze aus farbigen 
Quarzsanden desselben Herstellers bestehen. Der Datensatz Xo, hat 
eine zusätzliche Farbe und die anderen drei sind leicht variiert. Bei den 
modellbasierten Verfahren mit Reflektanzspektren funktioniert auch hier 
das auf dem ELMM basierende am besten. Insgesamt fallen diese besser 
aus als beim Datensatz Xg3. Daraus kann geschlossen werden, dass hier 
die Modelle durch den zusätzlichen Reinstoff näher an der Wirklichkeit 
sind als beim vorherigen Datensatz. Das CNN kommt dieses Mal nicht 
an die besten modellbasierten Verfahren heran, auch wenn das Güte- 
maß €gysp eine geringere Streuung aufweist. Das liegt daran, dass beim 
Datensatz Xo4 die Anteilsvektoren im Trainingsdatensatz weiter ausein- 
ander liegen. Dennoch ist das Resultat zufriedenstellend in Anbetracht 
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Abbildung 8.14 Darstellung von €gmsg als Box-Plots für den Datensatz Xp4. 


der Tatsache, dass kein Modellwissen benötigt wird und nur sehr wenig 
unterschiedliche Anteilsvektoren beim Training zur Verfügung stehen. 

Beim Datensatz Xp4 fällt zunächst auf, dass die Ergebnisse im Ver- 
gleich zu den Quarzsanddatensätzen insgesamt schlechter sind. Das 
liegt daran, dass hier mehr unbekannte Faktoren eine Rolle spielen, die 
zu einer höheren Spektrenvariabilität führen (siehe Abschnitt 2.5). Dar- 
über hinaus werden die Modelle noch ungenauer, da eine höhere Varianz 
der Partikelgröße und -form vorliegt (siehe Abschnitt 8.1.3). Bei den mo- 
dellbasierten Verfahren sehen die relativen Unterschiede zwischen den 
Verfahren ähnlich aus wie bei den vorhergehenden Datensätzen, nur dass 
der Vorteil der Verwendung der Albedo-Domäne geringer ausfällt. Dies 
kann mit demselben Argument begründet werden wie die schlechteren 
Ergebnisse im Vergleich zu den anderen Datensätzen. 

Beim Datensatz Xr, ist das CNN wieder im Vorteil. Auch wenn die 
Resultate schlechter sind als bei den anderen Datensätzen, so sind sie, ver- 
glichen mit den anderen dargestellten Verfahren, um einiges besser und 
das mit denselben im Trainingsdatensatz vorhandenen Anteilsvektoren 
wie beim Datensatz Xos: Das liegt daran, dass hier kein Modellwissen 
benötigt wird und das CNN die relevanten Zusammenhänge, die mit 
dem vorhandenen Wissen nicht modelliert werden können, aus den weni- 
gen Trainingsdaten lernt. In absoluten Zahlen funktioniert die spektrale 
Entmischung hier trotzdem leicht schlechter als beim Datensatz Xo4, 
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weil für das Lernen komplexerer Zusammenhänge im Datensatz Xp4 
weitere Trainingsdaten notwendig wären. 

Aufgrund der Ähnlichkeit der Ergebnisse in diesem Abschnitt bezogen 
auf die modellbasierten Verfahren werden in den folgenden Abschnit- 
ten nur das auf dem ELMM basierende Verfahren und das CNN zur 
spektralen Entmischung zum Vergleich herangezogen. Dabei wird so- 
wohl das Ergebnis für Reflektanzspektren als auch für Spektren in der 
Albedo-Domäne dargestellt. Das ELMM wird gewählt, weil es von den 
modellbasierten Verfahren in den meisten Fällen am besten funktioniert. 
Handelt es sich in einem Fall nicht um das beste Verfahren, ist der Ab- 
stand zum besten gering. Es eignet sich für den Vergleich mit Verfahren 
aus Kapitel 6, bei denen die Trainingsdaten modellbasiert erzeugt werden 
(Ergebnisse in Abschnitt 8.3.3). Das CNN für die spektrale Entmischung, 
das mit den ursprünglichen Trainingsdaten trainiert wird, wie es hier in 
diesem Abschnitt der Fall ist, wird zum Vergleich mit den Ergebnissen 
der erweiterten Trainingsdatensätze genutzt (siehe Abschnitt 8.3.4). Die 
erweiterten Trainingsdatensätze werden ebenfalls zum Training des in 
Kapitel 5 vorgestellten CNNs genutzt. 


8.3.3 Spektrale Entmischung mit generierten 
Trainingsdaten 


In diesem Abschnitt werden die Trainingsdatensätze, die modellbasiert 
aus echten Reinspektren erzeugt werden, ausgewertet. Die Verfahren zur 
Datenerzeugung, die zufällige Reinspektrenwahl (ZR) und die Model- 
lierung als normalverteilte Zufallsvektoren (NZ), werden in Kapitel 6 
ausführlich dargestellt. Die Abkürzungen in den Abbildungen mit den 
Ergebnissen setzen sich aus der Abkürzung des Verfahrens zur Daten- 
satzerstellung (ZR oder NZ) und der des dabei verwendeten Mischmo- 
dells (LMM, FM, GBM oder LOM) zusammen. Werden Spektren in der 
Albedo-Domäne erstellt und entmischt, wird die Abkürzung AD an- 
gehängt. Werden bspw. zufällige Reinspektren mit dem LMM in der 
Albedo-Domäne gemischt, wird dies als „ZR-LMM-AD“ bezeichnet. 
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Tabelle 8.2 Epochenzahl für das Training des CNNs für die spektrale Entmischung. 
Diese Werte ergeben sich fiir beide Methoden und alle Mischmodelle und werden fiir alle 
vorgegebenen Anteilsstufen genutzt. 


Datensatz 


Domäne Xos Ao, Ara 


Reflektanz 251 61 31 
Albedo 61 71 61 


8.3.3.1 Konfiguration der Verfahren 


Die Erzeugung der Trainingsdaten, die während des Trainings stattfindet, 
wird ausführlich in Kapitel 6 beschrieben. Bei Nutzung der Albedo-Do- 
mäne werden die Reflektanzspektren zu Beginn in die Albedo-Domäne 
umgerechnet. 

Das CNN für die spektrale Entmischung wird so verwendet, wie es 
in Abschnitt 8.3.2.1 beschrieben ist. Als Trainingsdaten werden die mit 
den beiden Verfahren erzeugten Spektren genutzt, von denen in jedem 
Trainingsschritt zu jedem vorgegebenen Anteilsvektor 400 Exemplare 
erzeugt werden. Damit sind es genau so viele je Anteilsvektor wie im 
ursprünglichen Datensatz, mit dem Unterschied, dass in jeder Epoche 
zufällig neue Exemplare erstellt werden. Die Anteilsvektoren werden 
für vier unterschiedliche Anteilsstufen berechnet, die in den Ergebnis- 
sen getrennt dargestellt sind. Die konkreten Anteilsstufen hängen vom 
Datensatz ab und sind in den Abbildungen aufgelistet. 

Die Hyperparameter bleiben dabei gleich wie in Abschnitt 8.3.2.1 mit 
Ausnahme der Anzahl der Epochen, wie in Tabelle 8.2 zu sehen ist. Die 
Anzahl der Epochen ist hier in fast allen Fällen höher als in Tabelle 8.1. 
Das liegt daran, dass nun mehr Datenpunkte zur Verfügung stehen und 
Überanpassung später auftritt. Das bedeutet jedoch nicht, dass die Resul- 
tate besser sind als beim Training mit den realen Mischspektren. Letztere 
bilden den wahren Mischzusammenhang genauer ab als die modellba- 
siert erstellten Spektren. Der Unterschied zwischen den Datensätzen mit 
3 und 4 beteiligten Reinstoffen wird bereits in Abschnitt 8.3.2.1 erläutert. 
Hier besteht nun auch ein Unterschied zwischen den Datensätzen Xo4 
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Abbildung 8.15 Darstellung von Erpse als Box-Plots für den Datensatz Xoz. Dabei sind 
oben die Ergebnisse der Datenerzeugung mit zufälliger Reinspektrenwahl und unten die 
der Datenerzeugung durch Modellierung als normalverteilte Zufallsvektoren zu sehen. 


und Xp4, was daran liegt, dass bei letzterem die Modelle die Realität 
schlechter beschreiben (siehe Abschnitt 8.1.3). 


8.3.3.2 Ergebnisse 


In Abbildung 8.15 sind die Ergebnisse für den Datensatz Xoz zu sehen. 
Dabei fällt bei der zufälligen Reinspektrenwahl zunächst auf, dass bei der 
direkten spektralen Entmischung mit dem ELMM-AD sehr gute Ergeb- 
nisse erzielt werden, die durch das vorgestellte Verfahren der zufälligen 
Reinspektrenwahl nur minimal in Bezug auf die Streuung verringert 
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werden können (ZR-LMM-AD). Hier ist das verwendete Modell genau 
genug, dass die Spektrenvariabilität durch die Skalierungsfaktoren im 
ELMM (2.13) näherungsweise abgebildet werden kann. 

Bei Verwendung der Reflektanzspektren ergibt sich bei allen Mischmo- 
dellen (vgl. Abbildung 8.12) eine deutliche Verbesserung der Ergebnisse, 
wobei das FM als Spezialfall des GBMs zu sehen ist. Dabei sticht das 
FM heraus, weil es ohne zusätzliche Nichtlinearitätskoeffizienten aus- 
kommt. Am besten funktioniert hier das GBM. So können die Modelle 
aus Abschnitt 2.4.1, die auf Mehrfachstreuung beruhen, recht gute Er- 
gebnisse liefern. Die Nichtlinearitätskoeffizienten werden jedoch nicht 
aufgrund physikalischer Gegebenheiten gesetzt, sondern in einem Opti- 
mierungsprozess bestimmt. Diese Nichtlinearitätskoeffizienten sind im 
Anhang in Tabelle B.1 für die untersuchten Verfahren und Anteilsstu- 
fen aufgelistet. Neben den Nichtlinearitätskoeffizienten, die mit Hilfe 
der Validierungsdaten bestimmt und für die Ergebnisse auf die Testda- 
ten angewandt werden, sind dort auch diejenigen gezeigt, die bei einer 
Optimierung mit dem Testdatensatz resultieren würden. Diese dürfen 
nicht zur Bewertung bezüglich der spektralen Entmischung verwendet 
werden. Allerdings kann der Vergleich einen Hinweis darauf geben, ob 
mit den Validierungsdaten geeignete Werte ermittelt worden sind. Bei 
der Betrachtung der Werte fällt auf, dass sie sich in Abhängigkeit der 
Anteilsstufe unterscheiden. Das liegt daran, dass nur ein Wert für alle 
Mischungen verwendet wird und das Optimum von den verwendeten 
Anteilsvektoren abhängt. Darüber hinaus fällt auf, dass beim LOM sich 
die mit den Validierungsdaten ermittelten Werte häufiger mit den für den 
Testdatensatz optimalen decken. Bei den Ergebnissen in Abbildung 8.15 
ist der Einfluss der Anteilsstufe 5 relativ gering. In den meisten Fällen 
tendieren kleinere Anteilsstufen zu leicht besseren Ergebnissen. 

In Abbildung 8.15 sind auch die Ergebnisse der Modellierung als nor- 
malverteilte Zufallsvariablen für den Datensatz Xoz zu sehen. Diese 
sind denen der zufälligen Reinspektrenwahl sehr ähnlich. Damit kann 
bestätigt werden, dass die getroffene Annahme der Normalverteilung 
gerechtfertigt ist, wenn das Ziel die spektrale Entmischung ist. Dabei 
sind die Ergebnisse der linearen Modelle insgesamt geringfügig bes- 
ser, die der nichtlinearen geringfügig schlechter als bei der zufälligen 
Reinspektrenwahl. Dies kann damit erklärt werden, dass letztere auch 
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Abbildung 8.16 Darstellung von €rms als Box-Plots für den Datensatz Xo4. Dabei sind 
oben die Ergebnisse der Datenerzeugung mit zufälliger Reinspektrenwahl und unten die 
der Datenerzeugung durch Modellierung als normalverteilte Zufallsvektoren zu sehen. 


Produkte von Reinspektren enthalten. Im Gegensatz zu Summen sind 
Produkte normalverteilter Zufallsvektoren im Allgemeinen nicht nor- 
malverteilt. Es wird jedoch angenommen, dass die Spektrenvariabilität 
von Mischspektren ebenfalls durch eine Normalverteilung ausreichend 
genau modelliert werden kann (siehe Abschnitt 6.2). 

In Abbildung 8.16 sind die Ergebnisse für den Datensatz Xgo4 zu se- 
hen. Bei diesem Datensatz können bei der zufälligen Reinspektrenwahl 
im Großen und Ganzen die gleichen Beobachtungen gemacht werden 
wie beim vorherigen Datensatz. Das liegt daran, dass es sich dabei um 
Quarzsande des gleichen Herstellers handelt. Der gröfßste Unterschied 
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ERMSE 


ERMSE 


Abbildung 8.17 Darstellung von ermse als Box-Plots für den Datensatz Xp4. Dabei sind 
oben die Ergebnisse der Datenerzeugung mit zufälliger Reinspektrenwahl und unten die 
der Datenerzeugung durch Modellierung als normalverteilte Zufallsvektoren zu sehen. 


ist, dass das direkte Entmischen mit dem ELMM besser funktioniert (vgl. 
Abschnitt 8.3.2.2). Auch im Vergleich mit der Modellierung als normal- 
verteilte Zufallsvektoren können die gleichen Beobachtungen gemacht 
werden. Dies bestätigt, zumindest in Bezug auf die Quarzsande, die Aus- 
sagen bezüglich der Annahme der Normalverteilung. Eine Auflistung 
der Nichtlinearitätskoeffizienten von GBM und LOM ist im Anhang in 
Tabelle B.2 zu sehen. 

In Abbildung 8.17 sind die Ergebnisse für den Datensatz Xp4 zu sehen. 
Hier können bei der zufälligen Reinspektrenwahl im Vergleich mit den 
korrespondierenden direkten Verfahren zur spektralen Entmischung in 
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Abbildung 8.14 insgesamt bessere Ergebnisse erzielt werden. Im Unter- 
schied zu den vorherigen Datensätzen funktioniert hier ein Verfahren 
am besten, das die Reflektanzspektren nutzt. Der Trainingsdatensatz, 
der basierend auf dem LOM gemischt wurde, führt zu besseren Ergeb- 
nissen als derjenige, der in der Albedo-Domäne mit dem LMM gemischt 
wurde. Dafür kommen zwei Ursachen in Frage: Zum einen ist das Mo- 
dell zur Umrechnung in die Albedo-Domäne aufgrund der Varianz der 
Partikelgröße und der raueren Oberfläche (siehe Abbildung 8.2) hier 
ungenauer. Zum anderen führt die rauere Oberfläche auch zu Mehrfach- 
streuung, wie sie in Abbildung 2.2(b) schematisch dargestellt wird. Das 
LOM modelliert genau diese, wobei es im Gegensatz zum GBM Mehr- 
fachstreuung am gleichen Reinstoff modelliert. Insgesamt gilt aber zu 
beachten, dass die Ergebnisse beim Datensatz Jr, schlechter ausfallen 
als bei den Quarzsanddatensätzen. 

Die Wahl der Anteilsstufe hat hier unterschiedlich großen Einfluss, je 
nachdem, welches Modell zugrunde gelegt wird. Insgesamt führen auch 
hier kleinere Anteilsstufen zu besseren Ergebnissen. Dies ist wenig über- 
raschend, da dadurch mehr Anteilsvektoren im Trainingsdatensatz zur 
Verfügung stehen. Jedoch führen zu viele zu einer Überlappung der Spek- 
tren unterschiedlicher Anteilsvektoren, was wiederum zu schlechteren 
Ergebnissen bei der Entmischung führen kann. 

In Abbildung 8.17 sind auch die Ergebnisse der Modellierung als nor- 
malverteilte Zufallsvektoren für den Datensatz Xp4 zu sehen. Auch bei 
diesem Datensatz gilt, dass die Ergebnisse denen der zufälligen Rein- 
spektrenwahl sehr ähnlich sind. Dabei sind sie hier für die meisten Mo- 
delle leicht besser. Ausnahme ist das GBM, wo die Ergebnisse deutlich 
schlechter werden. Das lässt sich damit erklären, dass der Nichtlinea- 
ritätskoeffizient, der mit den Validierungsdaten bestimmt wird (siehe 
Abschnitt 8.1.5), bei den Testdaten zu schlechteren Ergebnissen führt. 
Eine Auflistung der Nichtlinearitätskoeffizienten von GBM und LOM 
ist im Anhang in Tabelle B.3 zu sehen. Dort wird deutlich, dass beim 
GBM die Bestimmung der Nichtlinearitätskoeffizienten bei der zufälli- 
gen Reinspektrenwahl besser funktioniert als bei der Modellierung als 
normalverteile Zufallsvektoren. Beim LOM funktioniert die Bestimmung 
für beide Verfahren gut. 


119 


8 Umsetzung und Analyse 


Im Anhang B.1 sind zur besseren Vergleichbarkeit die Box-Plots al- 
ler Verfahren zur modellbasierten Datenerzeugung gemeinsam fiir die 
Anteilsstufen $ = + bzw. ó = } dargestellt. Zusätzlich werden für 
diese Anteilsstufen im Anhang B.2 die Ergebnisse für einige Verfahren 
als Histogramme dargestellt. Damit kann ein genauerer Eindruck über 
die Verteilung von eryysg gewonnen werden. 

Die vorgestellten Verfahren zur Datenerzeugung sind also in der Lage, 
zusammen mit einem CNN bessere Ergebnisse zu erzielen als ihre kor- 
respondierenden direkten Verfahren zur spektralen Entmischung. Dabei 
hängt die Verbesserung von den Daten und vom genutzten Modell ab. 
Bei den Quarzsanddatensätzen ist, verglichen mit der Entmischung mit 
dem ELMM in der Albedo-Domäne, keine Verbesserung mehr möglich, 
weil das Modell hier schon sehr genau ist. 

Des Weiteren liefern beide Verfahren ähnlich gute Ergebnisse, wor- 
aus geschlossen werden kann, dass bei der Modellierung die Annahme 
normalverteilter Zufallsvektoren getroffen werden kann. Zumindest ist 
die Modellierung genau genug, um Trainingsdaten für die spektrale 
Entmischung zu erzeugen. 


8.3.4 Spektrale Entmischung mit erweiterten 
Trainingsdaten 


In diesem Abschnitt werden die Auswirkungen der Verfahren zur Da- 
tenaugmentierung, die in Kapitel 7 ausführlich beschrieben werden, 
vorgestellt und ausgewertet. Die hier verwendeten Abkürzungen für 
die Methoden, die in den Abbildungen zu finden sind, werden in Ab- 
schnitt 8.2 eingeführt. 


8.3.4.1 Konfiguration der Verfahren 


Die Erzeugung der zusätzlichen Trainingsdaten erfolgt analog zu Ab- 
schnitt 8.2.2. Das Training der KNN, die die Datenerzeugung durch- 
führen, erfolgt mit den gleichen Parametern. Bei der Erzeugung der 
zusätzlichen Trainingsdaten werden Anteilsvektoren vorgegeben, die 
auf jeweils 4 Anteilsstufen basieren. Die Anteilsvektoren werden analog 
zu denen in Abschnitt 8.1 erstellt, wobei hier die genutzten Anteilsstu- 
fen abhängig vom Datensatz sind und in den Abbildungen angegeben 
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Tabelle 8.3 Epochenzahl für das Training des CNNs für die spektrale Entmischung. Diese 
Werte ergeben sich für Reflektanz- und Albedo-Domäne und werden für alle vorgegebenen 
Anteilsstufen genutzt. 


Datensatz 


Verfahren Xos Xos Ara 


GCNN 251 51 21 
GCNN-2 251 51 21 
GCNN-Cov 251 51 21 


GPNN 251 41 31 
GPNN-M 251 31 21 
RGAN 251 51 21 


RGAN-DE 251 51 21 


werden. Die unterschiedlichen Anteilsstufen werden aufgrund der unter- 
schiedlichen bereits vorhandenen Anteilsstufen der Datensätze verwen- 
det. Anteilsvektoren, die bereits im ursprünglichen Trainingsdatensatz 
vorkommen, werden nicht benutzt, da hier bereits Spektren vorhanden 
sind. Zur Augmentierung werden die ursprünglichen Trainingsdatensät- 
ze mit den erzeugten Spektren ergänzt. Auch hier werden 400 Spektren 
je Anteilsvektor erzeugt, damit die Anzahl der in den ursprünglichen 
Trainingsdaten entspricht. 

Das CNN für die spektrale Entmischung wird so verwendet, wie in Ab- 
schnitt 8.3.2.1 beschrieben, wobei die Hyperparameter bis auf die Anzahl 
der Epochen gleich bleiben. Letztere sind in Tabelle 8.3 zu finden. Dabei 
fällt auf, dass die Anzahl der Epochen höher ist als in Tabelle 8.1, wo die 
ursprünglichen Trainingsdatensätze genutzt werden. Das liegt daran, 
dass die erweiterten Trainingsdatensätze mehr Datenpunkte beinhalten 
und später zu einer Überanpassung führen. Bis auf eine Ausnahme ist 
dies beim Datensatz Xr4 nicht der Fall. Wie bereits erwähnt, hat dieser 
die meisten Unsicherheiten bei der Modellierung. Die Ziffer 1 bei den 
Werten kommt daher, dass in Zehnerschritten, beginnend bei 1, nach der 
Anzahl gesucht wird. Dies hat sich als ausreichend genau herausgestellt. 
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8.3.4.2 Ergebnisse 


Zusatzlich zu den hier dargestellten Box-Plots werden fiir die Anteilsstu- 
fen ó = = bzw. S = ; im Anhang B.2 fiir einige Verfahren die Ergebnisse 
als Histogramme dargestellt. Damit kann ein genauerer Eindruck von 
der Verteilung von €gysp gewonnen werden. 

In Abbildung 8.18 sind die Ergebnisse der spektralen Entmischung 
für den Datensatz Xoz dargestellt. Bei den Resultaten zum GCNN fällt 
zunächst auf, dass in allen Fällen eine Verbesserung gegenüber dem nicht 
erweiterten Datensatz (CNN) vorliegt, außer wenn die Schrittweite mit 
S= : zu groß gewählt wird. Dies gilt auch für das GPNN und das RGAN. 
Hier genügt die Anzahl der zusätzlichen Anteilsvektoren nicht, um eine 
Verbesserung zu erzielen. Es findet sogar eine Verschlechterung statt, 
was am Fehler des aus den Daten gelernten Modells des GCNNs liegt. 
Bei kleineren Anteilsstufen überwiegt der Vorteil durch die zusätzlichen 
Daten. Zwischen den anderen untersuchten Anteilsstufen besteht kaum 
ein Unterschied. 

Die Variante, die eine Regularisierung mit Hilfe der Kovarianzmatrix 
durchführt (GCNN-Cov), hat in der Reflektanz-Domäne einen kleinen 
Vorsprung vor den anderen Varianten. Daraus kann geschlossen werden, 
dass die realistischere Modellierung der Spektrenvariabilität bei diesem 
Datensatz vorteilhaft ist. 

In Abbildung 8.18 ist zu sehen, dass mit dem GPNN ähnlich gute 
Ergebnisse erzielt werden können wie mit dem GCNN. Bei ähnlichem 
Median ist die Streuung der Werte in der Box geringer. Dabei genügt 
die Verwendung der Mittelwertspektren (GPNN-M). Damit zeigt sich, 
dass auch mit den hier verwendeten einfachen KNN gute Ergebnisse 
in der spektralen Entmischung erzielt werden können, obwohl diese im 
direkten Vergleich mit den Testspektren in Abschnitt 8.2 am schlechtesten 
abschneiden. Insbesondere folgt daraus, dass auch ohne Modellierung 
der Spektrenvariabilität eine Verbesserung erzielt werden kann und dass 
die beim GPNN verwendete Modellierung der Kovarianzfunktion kaum 
Vorteile bringt. 

Beim RGAN fallen die Ergebnisse, die in Abbildung 8.18 dargestellt 
sind, ähnlich aus. Hier ist jedoch die Streuung, die durch die „Anten- 
nen” in den Box-Plots dargestellt wird, nach oben hin geringer. Damit 
ergibt sich ein Vorteil der Regularisierung mit dem Diskriminator. Die 
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Abbildung 8.18 Darstellung von Erpse als Box-Plots für den Datensatz Xoz. Dabei sind 
die Ergebnisse der Augmentierung mit dem GCNN oben, mit dem GPNN in der Mitte 
und mit dem RGAN unten zu sehen. 
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Verwendung des Diskriminators bei der Datenerzeugung hat hier keinen 
nennenswerten Einfluss. 

Die Unterschiede zwischen Reflektanz- und Albedo-Domäne sind 
bei allen Verfahren gering, sodass die Aussage bestatigt werden kann, 
dass die KNN diesen Zusammenhang implizit lernen. Im Anhang in 


Abbildung B.2 sind zur besseren Vergleichbarkeit die Box-Plots aller 
1 


augmentierenden Verfahren nebeneinander für die Anteilsstufe 5 = - o 


dargestellt. 

In Abbildung 8.19 sind die Ergebnisse für den Datensatz Xo, zu sehen. 
Auch hier findet bei den Resultaten zum GCNN in jedem untersuch- 
ten Fall eine Verbesserung im Vergleich zum Training mit dem nicht 
augmentierten Trainingsdatensatz (CNN) statt. Dabei ist zu beachten, 
dass auch keines dieser Verfahren in der Lage ist, die direkte spektrale 
Entmischung mit dem ELMM zu schlagen. Im Anhang in Abbildung B.4 
sind zur besseren Vergleichbarkeit die Box-Plots aller augmentierenden 
Verfahren gemeinsam für die Anteilsstufe 5. = + dargestellt. Dort ist 
auch die direkte spektrale Entmischung mit dem ELMM zum Vergleich 
dargestellt. Diese Aussagen gelten auch für das GPNN und das RGAN. 
Das ist, wie auch an anderer Stelle, damit zu erklären, dass im Vergleich 
zum vorherigen Datensatz ein größerer Abstand zwischen den Anteils- 
vektoren im Trainingsdatensatz vorliegt. Dennoch kann auch hier die 
Performanz des CNNs durch Augmentierung verbessert werden. 

Ebenfalls für alle Verfahren gilt auch beim Datensatz Xos, dass der 
Unterschied zwischen Reflektanz- und Albedo-Domäne gering ist, was 
mit den bisherigen Erkenntnissen übereinstimmt. Im Gegensatz zum 
Datensatz Xos bringt hier auch die größte Anteilsstufe eine Verbesserung 
und der Unterschied zur nächst kleineren ist geringer. Tendenziell gilt 
hier, dass kleinere Anteilsstufen zu besseren Ergebnissen führen, jedoch 
gibt es dabei einige Unregelmäßigkeiten. Dies ist damit zu erklären, dass 
im ursprünglichen Trainingsdatensatz die Datenpunkte bezüglich der 
Anteilsvektoren einen größeren Abstand haben. Daher bringen schon 
wenige zusätzliche Daten, trotz Modellfehler im datenerzeugenden KNN, 
einen Vorteil, der mit steigender Anzahl an zusätzlichen Datenpunkten 
größer wird. 

Das GPNN schneidet hier im Vergleich mit den anderen Augmentie- 
rungsverfahren am schlechtesten ab, aber auch hier findet eine Verbes- 
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Abbildung 8.19 Darstellung von Erpse als Box-Plots für den Datensatz Xo4. Dabei sind 
die Ergebnisse der Augmentierung mit dem GCNN oben, mit dem GPNN in der Mitte 
und mit dem RGAN unten zu sehen. 
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serung gegenüber der Referenz (CNN) statt. Wie beim Datensatz gg 
ist hier die Variante GPNN-M ähnlich gut wie die, die auch die Kovari- 
anzfunktion berücksichtigt (GPNN). Allerdings schneiden das GCNN 
und das RGAN deutlich besser ab. Bei größerem Abstand zwischen den 
Anteilsvektoren können die verwendeten kleinen GPNN die Zusammen- 
hänge nicht so gut abbilden wie die anderen vorgestellten KNN. 

Das RGAN schneidet bei diesem Datensatz, vor allem bei der Streuung, 
am besten ab. Der Unterschied ist am deutlichsten bei großen Anteils- 
stufen. Die Regularisierung mit dem Diskriminator zahlt sich auch beim 
Datensatz Xo, aus. Damit ergibt sich hier die geringste Abhängigkeit von 
der Anteilsstufe bei diesem Datensatz. Die Verwendung des Diskrimina- 
tors bei der Datenerzeugung (RGAN-DE) führt zu keiner zusätzlichen 
Verbesserung. Die dadurch aussortierten erzeugten Spektren scheinen 
nicht ins Gewicht zu fallen. 

In Abbildung 8.20 sind die Ergebnisse der spektralen Entmischung 
für den Datensatz Xr, zu sehen. Wie bei den bisherigen Ergebnissen 
sind diese im Vergleich zu den anderen Datensätzen beim Datensatz Xp4 
insgesamt schlechter. Eine Verbesserung im Vergleich zum CNN, das 
mit dem nicht augmentierten Trainingsdatensatz trainiert wird, ist bei 
allen Verfahren und Anteilsstufen gegeben. Dabei funktioniert letzteres 
besser als alle modellbasierten Verfahren. Ein Vergleich aller Verfahren 
findet sich im Anhang in Abbildung B.6. 

Wie bei den vorherigen Datensätzen ist der Einfluss der Anteilsstufe 
gering, wobei kleinere Anteilsstufen tendenziell zu besseren Ergebnissen 
führen. Im Gegensatz zum Datensatz Xos ist auch hier, wie beim Daten- 
satz Xos» die größte Anteilsstufe nicht schlechter als die Referenz. Damit 
bestätigt sich die Vermutung, dass dies mit den verfügbaren Anteilsvek- 
toren im ursprünglichen Trainingsdatensatz zusammenhängt, die beim 
Datensatz Xoz anders ist als bei den restlichen Datensätzen. Ebenfalls 
wie bei den anderen Datensätzen zeigt sich hier der geringe Unterschied 
zwischen Reflektanz- und Albedo-Domäne. 

Am besten funktioniert das GCNN, wobei die Regularisierung mit 
der Kovarianzmatrix einen leichten Vorsprung hat. Das RGAN liefert 
minimal schlechtere Ergebnisse. Dies ist bei den Quarzsanddatensätzen 
nicht der Fall gewesen. Das zeigt, dass die Regularisierung mit dem 
Diskriminator nicht immer zu besseren Ergebnissen führt, wobei der 
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Abbildung 8.20 Darstellung von €gmsg als Box-Plots für den Datensatz Xp4. Dabei sind 
die Ergebnisse der Augmentierung mit dem GCNN oben, mit dem GPNN in der Mitte 
und mit dem RGAN unten zu sehen. 
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Datensatz Ar, am anspruchsvollsten ist (siehe Abschnitt 8.1.3). Auch hier 
findet keine Verbesserung der Ergebnisse durch die Verwendung des 
Diskriminators bei der Datenerzeugung statt. 

Am schlechtesten funktioniert, wie auch beim Datensatz Xos, das 
GPNN. Damit liegt die Vermutung nahe, dass dieses Problem mit dem 
größeren Abstand der Anteilsvektoren im ursprünglichen Trainingsda- 
tensatz zusammenhängt. Das Weglassen der Kovarianzfunktion (GPNN- 
M) führt hier sogar zu leicht besseren Ergebnissen, was nahelegt, dass die 
Modellierung der Spektrenvariabilität zu ungenau ist, um einen Vorteil 
zu bringen. 


8.3.5 Vergleich Reflektanz- und Albedo-Domäne 


Wie bereits in den vorherigen Abschnitten festgestellt wurde, fällt sowohl 
bei der spektralen Entmischung (siehe Abschnitt 8.3.4.2) als auch bei 
der Datenerzeugung (siehe Abschnitt 8.2.3) mit KNN der Unterschied 
zwischen der Verwendung von Reflektanzspektren und Spektren in der 
Albedo-Domäne gering aus. Darüber hinaus gehen die Unterschiede in 
beide Richtungen. Dies variiert in Abhängigkeit des verwendeten Daten- 
satzes, des verwendeten Verfahrens und der verwendeten Anteilsstufe, 
wobei keine Regelmäßigkeit festzustellen ist. 

Durch die modellbasierten Verfahren ist bekannt, dass die Mischspek- 
tren der untersuchten Datensätze in der Albedo-Domäne mit dem li- 
nearen Mischmodell gut beschrieben werden können (siehe Abschnit- 
te 8.3.2.2 und 8.3.3.2). Damit ist die Funktion, die das KNN realisiert, bei 
Spektren in der Albedo-Domäne einfacher als bei Reflektanzspektren. 
Daher stellt sich die Frage, ob dies einen Vorteil bei weniger verfügbaren 
Trainingsdaten darstellt. 

Dies wird in Abbildung 8.21 für den Datensatz Xos untersucht. Dieser 
eignet sich dafür am besten, da hier die meisten unterschiedlichen Werte 
in den Anteilsvektoren im ursprünglichen Trainingsdatensatz enthalten 
sind. Dargestellt wird das Gütemaß eruse- Es wird das CNN aus Kapi- 
tel 5 mit dem ursprünglichen Trainingsdatensatz trainiert, bei dem nach 
und nach Anteilsvektoren und alle dazugehörigen Spektren entfernt 
werden. Die Hyperparameter werden wie in Abschnitt 8.3.2.1 belassen. 
Die Ausnahme ist die Anzahl an Epochen, die angepasst werden muss 
(siehe Tabelle 8.4). 
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Anzahl unterschiedlicher Anteilsvektoren im Trainingsdatensatz 


Abbildung 8.21 Darstellung von erusz als Box-Plots für den Datensatz Xos. Vergleich 
Reflektanz und Albedo mit unterschiedlicher Anzahl an verschiedenen Anteilsvektoren 
im Trainingsdatensatz des generativen CNNs. 


Im ersten Versuch werden alle 15 Anteilsvektoren genutzt. Hier sind 
die Spektren in der Albedo-Domäne leicht im Vorteil. Im zweiten werden 
alle Anteilsvektoren entfernt, die den Wert 0,75 enthalten, womit 9 An- 
teilsvektoren verbleiben. Hier sind die Ergebnisse insgesamt schlechter, 
der Unterschied zwischen den Domänen ist klein, bei Median und Box 
sind die Reflektanzspektren leicht im Vorteil, dafür gibt es größere Aus- 
reißer. In einem weiteren Versuch werden zusätzlich alle Anteilsvektoren 
entfernt, die den Wert 0,25 enthalten, sodass nur noch 6 Anteilsvektoren 
verbleiben. Die Ergebnisse verschlechtern sich dadurch insgesamt noch 
weiter. Hier funktioniert die Entmischung in der Albedo-Domäne für 
einen großen Teil der Datenpunkte besser. Zuletzt werden auch die Da- 
tenpunkte entfernt, die den Wert 0,5 enthalten. Hier ist der Unterschied 
groß. Jedoch muss bedacht werden, dass jetzt nur noch die Reinspek- 
tren im Trainingsdatensatz enthalten sind. Damit kann das CNN die 
Mischcharakteristik des Datensatzes nicht lernen. Dies wird auch da- 
durch unterstrichen, dass damit nur ein kurzes Training möglich ist, 
bevor Überanpassung eintritt (siehe Tabelle 8.4). Dabei sind es in der 
Albedo-Domäne mehr Epochen als bei den Reflektanzspektren. 

Dass die Anteilsschätzung mit den Spektren in der Albedo-Domäne 
trotzdem besser funktioniert als mit den Reflektanzspektren, liegt daran, 
dass im CNN lineare Operationen in den Faltungsschichten und den 
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Tabelle 84 Epochenzahl für das Training des CNNs für die spektrale Entmischung in 
Abhängigkeit der Anzahl unterschiedlicher Anteilsvektoren a. 


Anteilsvektoren 
Domäne 15 9 6 1 


Reflektanz 81 91 121 11 
Albedo 61 81 831 21 


vollständig verbundenen Schichten durchgeführt werden. Die nichtli- 
nearen Aktivierungsfunktionen haben ebenfalls einen Bereich, in dem 
sie näherungsweise linear sind. Somit ist es nicht verwunderlich, dass 
bei fehlenden Zwischenwerten im Trainingsdatensatz ein näherungswei- 
se linearer Zusammenhang gelernt wird. Damit stellt die Nutzung der 
Albedo-Domäne bei besonders wenig verfügbaren Anteilsvektoren im 
Trainingsdatensatz tatsächlich einen Vorteil dar. 


8.4 Zusammenfassung der Auswertung 


Zusammenfassend lässt sich sagen, dass mit geeigneten Trainingsdaten 
die Verwendung von KNN zur spektralen Entmischung Vorteile mit sich 
bringt. Sind nur von den Reinstoffen echte Spektren verfügbar, muss der 
Trainingsdatensatz modellbasiert erstellt werden (siehe Abschnitt 8.3.3). 
Dies führt zu einem Vorteil gegenüber der korrespondierenden direkten 
Entmischung mit dem gleichen Mischmodell, wie es für die Datener- 
zeugung genutzt wird. Vor allem bei den nichtlinearen Mischmodellen 
FM, GBM und LOM ist dieser Vorteil, obwohl bei der Datenerzeugung 
nur ein fester Nichtlinearitätskoeffizient verwendet wird, groß, da diese 
schwierig zu optimieren sind. Der Vorteil wird geringer, je näher das 
verwendete Modell an der Realität ist. Dabei hat sich herausgestellt, dass 
die zufällige Reinspektrenwahl und die Modellierung als normalverteilte 
Zufallsvektoren bei ausreichend vorhandenen Spektren zu ähnlichen 
Ergebnissen führen. 

Sind Trainingsdaten in Form von Mischspektren mit Anteilsvektor 
vorhanden, kann damit direkt ein CNN für die spektrale Entmischung 
trainiert werden. Dieses liefert bessere Ergebnisse als die modellbasier- 
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ten Methoden, wenn ausreichend Trainingsdaten zur Verfiigung stehen 
(Xos) oder die Modelle zu ungenau sind (Xp4). Abgesehen von der spek- 
tralen Entmischung in der Albedo-Domäne werden auch beim Datensatz 
Xo, durchweg bessere Ergebnisse mit dem CNN erzielt. 

Die vorgestellten Verfahren zur Augmentierung verbessern die Er- 
gebnisse des CNNs in allen Fällen, außer die Anteilsstufe, auf der die 
erzeugten Anteilsvektoren basieren, wird zu groß gewählt. Die Unter- 
schiede zwischen den Verfahren und deren Varianten fallen gering aus. 
Es hängt außerdem vom Datensatz ab, welches Verfahren die größte 
Verbesserung bringt. Das GCNN liefert für alle untersuchten Datensätze 
gute Ergebnisse, besonders in der Variante, bei der die Kovarianzmatrix 
zur Regularisierung genutzt wird. Das RGAN kann die Streuung der 
Werte gegenüber dem GCNN noch verbessern. Dies ist jedoch nicht bei 
allen Datensätzen gelungen. Die Zuhilfenahme des Diskriminators bei 
der Datenerzeugung verändert die Ergebnisse nicht nennenswert, sodass 
darauf verzichtet werden kann. Das GPNN führt bei einem Datensatz 
(Xos) ebenfalls zu guten Ergebnissen, jedoch kann es nicht mit dem 
GCNN mithalten, wenn weniger Trainingsdaten vorhanden sind. Der 
Vorteil beim GPNN ist das kleine, schnell zu trainierende KNN. Dabei 
hat sich herausgestellt, dass die Modellierung der Kovarianzfunktion 
kaum einen Unterschied macht. Dass die Modellierung der Spektrenva- 
riabilität sinnvoll ist, ist an der Verbesserung der Ergebnisse zwischen 
GCNN und GCNN-Cov bzw. RGAN zu sehen. Dies deckt sich auch 
weitestgehend mit den Ergebnissen des direkten Vergleichs der erzeug- 
ten Daten mit den Testdaten in Abschnitt 8.2.3. Dabei ist zu beachten, 
dass bei den Verfahren GCNN-Cov und GPNN die Kovarianzmatrizen 
für die Anteilsvektoren explizit berechnet werden müssen. So ist de- 
ren Anwendung nur möglich, wenn entsprechend viele Spektren für 
jeden Anteilsvektor vorhanden sind. Bei allen anderen Verfahren zur 
Erzeugung von zusätzlichen Trainingsdaten ist dies nicht erforderlich. 

Bei allen Augmentierungsverfahren spielt die Wahl der bei der Daten- 
erzeugung zugrundeliegenden Anteilsstufe eine untergeordnete Rolle, 
solange diese nicht zu groß gewählt wird. Das liegt daran, dass die Net- 
ze zur Datenerzeugung keine zusätzliche Information zur Verfügung 
haben. Sie nutzen die vorhandenen Daten nur besser aus als das CNN 
für die spektrale Entmischung (siehe Kapitel 7). Damit ist auch hier kei- 
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ne beliebig feine Abstufung möglich. Zusätzliche Stützstellen bei den 
Anteilsvektoren unterstützen jedoch das CNN für die spektrale Ent- 
mischung beim Training. Zu beachten gilt auch, dass die zweitgrößte 
untersuchte Anteilsstufe (S = 5 bzw. 5 = =) dazu führt, dass genau für 
die Anteilsstufen, die in den Testdatensätzen enthalten sind, Spektren 
erzeugt werden. Dies könnte dazu führen, dass diese Anteilstufen be- 
sonders gut abschneiden. Das spiegelt sich in den Ergebnissen jedoch 
nicht wider. 

Die spektrale Entmischung mit Spektren in der Albedo-Domäne führt 
bei den modellbasierten Verfahren zu den besten Ergebnissen. Dies deckt 
sich mit der Theorie in Kapitel 2, da es sich bei allen Datensätzen um 
Mischungen feiner Pulver handelt. Bei den datenbasierten Verfahren gibt 
es kaum einen Unterschied zwischen der Verwendung von Reflektanz- 
spektren und Spektren in der Albedo-Domäne. Das liegt daran, dass 
diese, auch bei wenig vorhandenen Trainingsdaten, den Zusammenhang 
implizit lernen (siehe Abschnitt 8.3.5). 
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In der vorliegenden Arbeit wurden Verfahren zur spektralen Entmi- 
schung mit KNN vorgestellt. Dabei handelt es sich um Verfahren, die 
überwacht trainiert werden. Damit ist zum Training für jedes Spektrum 
ein zugehöriger Anteilsvektor im Datensatz erforderlich. Dies hat den 
Vorteil, dass die Zusammenhänge vollständig aus den Daten gelernt wer- 
den können und kein Modellwissen erforderlich ist. Nachteilig ist dabei, 
dass die dafür notwendigen Datensätze nur aufwendig zu erstellen sind. 
Bei den Daten wird von einem industriellen Umfeld ausgegangen, indem 
die beteiligten Reinstoffe bekannt sind und es möglich ist, Stoffgemische 
zu erzeugen, von denen jeweils mehrere Aufnahmen gemacht werden 
können. Hierbei ist das Erstellen unterschiedlicher Aufnahmen weniger 
aufwendig als die Anfertigung der Stoffgemische. Für die Trainingsdaten- 
sätze werden systematisch Mischungen erzeugt. Dabei werden von jeder 
Mischung mehrere Aufnahmen erstellt, sodass daraus die statistischen 
Eigenschaften der Spektrenvariabilität bestimmt werden können. 

In Kapitel 5 wurde ein CNN vorgestellt, das an die Anforderungen 
der spektralen Entmischung angepasst ist. Zum einen ist es im Vergleich 
zu gängigen KNN aus der Bildverarbeitung klein, sodass es mit wenig 
Trainingsdaten zurecht kommt. Zum anderen ist die Ausgangsschicht 
so ausgelegt, dass die Nebenbedingungen an die Anteilsvektoren stets 
erzwungen werden. Die Spektrenvariabilität wird dabei implizit über 
die Daten berücksichtigt. Hier wäre ein größeres KNN gegebenenfalls 
vorteilhaft, um möglichst invariant gegen Spektrenvariabilität zu werden. 
Dafür sind die Trainingsdaten allerdings nicht ausreichend. Es würde zu 
Überanpassung kommen und damit zu Problemen mit Anteilsvektoren 
führen, die zwischen den Anteilsvektoren des Trainingsdatensatzes lie- 
gen. Die kontinuierlichen mehrdimensionalen Ausgangsgrößen sind ne- 
ben der Spektrenvariabilität eine große Herausforderung beim Training 
eines KNNs für die spektrale Entmischung, weil Trainingsdatensätze 
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immer nur eine endliche (und in der Praxis nicht beliebig große) Anzahl 
an Anteilsvektoren enthalten können. 

Um dem entgegenzuwirken, wurden in Kapitel 7 Verfahren zur Daten- 
augmentierung vorgestellt. Dadurch stehen Trainingsdaten mit weiteren 
Anteilsvektoren, die zwischen den ursprünglichen Anteilsvektoren lie- 
gen, zur Verfügung. Bei den Verfahren zur Augmentierung handelt es 
sich um KNN, die in der Lage sind, die vorhandenen Trainingsdaten 
besser auszunutzen als das CNN für die spektrale Entmischung. Das ge- 
schieht beim GCNN durch Vertauschung von Ein- und Ausgangsdaten 
im Vergleich zum CNN für die spektrale Entmischung und zusätzli- 
cher Einführung von zufälligen Eingangsgrößen. Beim RGAN wird das 
GCNN in eine GAN-Struktur integriert. Beim letzten Ansatz, dem GPNN, 
wird der Umweg über die Gauß-Prozesse gegangen, was in besonders 
einfachen KNN resultiert. Bei allen vorgestellten Verfahren wird die 
Spektrenvariabilität durch stochastische Komponenten modelliert. Es 
zeigt sich dabei in den meisten Parametrierungen eine Verbesserung 
gegenüber dem CNN für die spektrale Entmischung, das mit den ur- 
sprünglichen Trainingsdaten trainiert wird. Hierbei führt eine weitere 
Verkleinerung der Anteilsstufe zu keiner Verbesserung mehr, was daran 
liegt, dass keine realen Spektren für die zusätzlichen Mischverhältnisse 
hinzukommen. Stattdessen werden für neue Mischverhältnisse Spektren 
auf Basis der vorhandenen generiert, sodass schnell die Grenze der mög- 
lichen Verbesserung erreicht wird. Welches der Verfahren im konkreten 
Fall am besten funktioniert, hängt von den verwendeten Daten ab. 

Die rein datenbasiert trainierten Verfahren sind den modellbasierten in 
den meisten Fällen überlegen. Bei den hier untersuchten Datensätzen ist 
es bei zwei von drei der Fall. Die modellbasierte spektrale Entmischung 
ist bei dem verbleibenden Datensatz nur dann im Vorteil, wenn eine 
genauere Modellierung der Mischung in der Albedo-Domäne genutzt 
wird. Daraus lässt sich ableiten, dass die datenbasierten Verfahren bes- 
ser funktionieren können, wenn viele Trainingsdaten vorhanden sind 
oder eine ausreichend genaue Modellierung wegen unzureichendem 
Modellwissen nicht möglich ist. 

Neben den datenbasierten Verfahren wurden in Kapitel 6 zwei mo- 
dellbasierte Verfahren zur Datenerzeugung vorgestellt. Diese erzeugten 
Daten basieren auf den Reinspektren und dienen als Trainingsdaten für 
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das CNN fiir die spektrale Entmischung. Die Idee dabei ist, Vorteile 
einer spektralen Entmischung mit KNN zu nutzen, nämlich die Erzwin- 
gung der Nebenbedingungen durch die Netzstruktur und den Einbezug 
der Spektrenvariabilität durch die Trainingsdaten. Diese Verfahren über- 
treffen bei den meisten Datensätzen die direkte Anwendung desselben 
Mischmodells zur spektralen Entmischung. Dies gilt insbesondere für 
die untersuchten nichtlinearen Mischmodelle. 

Wie bei datenbasierten Verfahren üblich, basieren die in Kapitel 8 
vorgestellten Ergebnisse auf den verwendeten Datensätzen und sind 
daher nur für diese belegt. Bei den verwendeten Datensätzen handelt es 
sich um keine Spezialfälle, die besonders einfach spektral zu entmischen 
sind. Daher ist durchaus zu erwarten, dass für weitere Datensätze unter 
den beschriebenen Bedingungen mit den in dieser Arbeit vorgestellten 
Verfahren ähnliche Ergebnisse erzielt werden können. Die Hyperpara- 
meter der genutzten KNN müssen dazu angepasst werden. Auch der 
verwendete Wellenlängenbereich sollte idealerweise an die Anwendung 
angepasst werden. 

Sollen die vorgestellten Verfahren zukünftig für spezielle (industrielle) 
Anwendungen eingesetzt werden, ist zu beachten, dass sie die Reflektanz 
nutzen. Daher lässt sich damit vor allem auf die Zusammensetzung der 
Oberfläche der zu untersuchenden Stoffgemische schließen. Deswegen 
eignen sich die Verfahren vor allem dann, wenn, wie hier, von einer loka- 
len Homogenität der Mischung ausgegangen werden kann. Alternativ 
kann, wenn das möglich ist, das zu untersuchende Stoffgemisch dünn 
unter der Kamera durchgeführt werden. Das wäre z. B. mit einem breiter 
werdenden Fließband realisierbar. Diese Einschränkung gilt aber für alle 
Verfahren, die die Reflektanz für die spektrale Entmischung nutzen. 

Darüber hinaus eignen sich die erreichbaren Genauigkeiten nicht für je- 
de Anwendung. Hier können die Ergebnisse dieser Arbeit einen Hinweis 
darauf geben, was möglich ist, vor allem, wenn es sich bei den zu unter- 
suchenden Stoffgemischen um Pulvermischungen handelt. Es hat sich 
jedoch auch in dieser Arbeit beim Vergleich zwischen den Quarzsanden 
und den Farbpulvern gezeigt, dass die Ergebnisse stark datensatzab- 
hängig und damit anwendungsabhängig sind. Diese Abhängigkeit gilt 
jedoch für alle untersuchten Verfahren. 
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Wie in dieser Arbeit gezeigt wird, können mit überwachten Trainings- 
verfahren bessere Ergebnisse als mit modellbasierten Verfahren erreicht 
werden. Vorraussetzung dafür ist die Verfügbarkeit entsprechender Trai- 
ningsdaten, was im Vergleich zwischen den beiden Datensätzen aus 
farbigen Quarzsanden deutlich wird. Damit der Aufwand der Daten- 
satzerstellung nicht zu groß wird, dürfen nicht zu viele Reinstoffe enthal- 
ten sein, auch wenn durch die vorgestellten Augmentierungverfahren 
schon wenige reale Mischungen genügen. Sind bei einer Anwendung 
viele Reinstoffe beteiligt, bleiben die modellbasierten Verfahren aus Ka- 
pitel 6 eine Alternative, bei der je nach Mischmodell nur Aufnahmen der 
Reinstoffe oder zusätzlich wenige Mischspektren benötigt werden. 

Auch methodisch lassen sich die vorgestellten Verfahren zukünftig 
erweitern. Für die datenbasierte Erzeugung zusätzlicher Trainingsda- 
ten, wie sie in Kapitel 7 vorgestellt wird, gibt es eine Klasse an KNN, 
die in der Sprach- und Bildsynthese große Erfolge erzielen konnte [20, 
97]. Denoising Diffusion Probabilistic Models [51, 87, 118] werden so trai- 
niert, dass sie die Umkehrfunktion einer schrittweisen Verrauschung mit 
normalverteiltem Rauschen lernen. Dabei werden die Daten in vielen 
Schritten verrauscht, bis nur noch Rauschen übrig bleibt, was ebenfalls 
normalverteilt ist. Die trainierten Netze sind dann in der Lage, unbe- 
kannte Realisierungen von normalverteiltem Rauschen schrittweise zu 
„entrauschen“, wodurch neue Daten mit denselben Eigenschaften wie 
die Trainingsdaten generiert werden können. Wie beim Conditional Va- 
riational Autoencoder und beim CGAN existieren hier auch Ansätze, die 
eine Vorgabe von Bedingungen erlauben, was die Erzeugung von Da- 
tenpunkten einer bestimmten Klasse ermöglicht. Zukünftige Forschung 
könnte untersuchen, ob auch hier die Vorgabe kontinuierlicher Werte, die 
nicht im Trainingsdatensatz enthalten sind, möglich ist. Das ist bei der 
Erzeugung zusätzlicher Trainingsdaten für die spektrale Entmischung 
notwendig. 
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Anhang 


A Herleitung: Stochastische 
Mischmodelle 


In diesem Anhang werden Herleitungen zu Formeln ausführlich darge- 
stellt, die den Rahmen der Hauptkapitel sprengen würden. Da er sich 
eher als Nachschlagewerk versteht, werden in diesem Anhang zum Teil 
Größen neu definiert und nicht alle Größen ins Symbolverzeichnis auf- 
genommen. 

Die Beziehung (6.10) kann in wenigen Schritten mit Hilfe von (6.6) und 
(6.9) gezeigt werden: 
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Der Zusammenhang (6.23) kann mit Hilfe von (6.9), (6.11), (6.13) und 
(6.14) hergeleitet werden: 
Zyog,pog = Ef (m, O m; — pp © Hy) (m, O m; — Hy © m) } 
= E{(m, © m) (m, om) —(m,Om,) (up © p4)" 
— (u, © m4) (m, © m)" + (up © m) (My © m) } (A.2) 
= E{m,m; } © E{m,m, } — (ppp) © (ahg ) 
= (Epp + Hipp ) © (Zq + Malta) — (pp) © (Hate) 
= Epp © Egg + Epp O (Hat) + Zag © (Mphp) - 


Der Zusammenhang (6.24) kann ebenfalls mit Hilfe von (6.9), (6.11), 
(6.13) und (6.14) hergeleitet werden, wobei 1 ein Vektor der passenden 
Länge bestehend aus Einsen ist: 


Zp pog = Ef (m, - Hy) (m, Om, — pp © m) } 
= Efm, (m, om) -m, (Hy © m) 

= m (m, © m) + Hy (Hp © Ha) } (A.3) 
= E{m,m, } © E{1m,} - (pnp) © (1p) 
= (Epp +) © (173) - (m) © (1m) 
=2,,o(1m)- 


Dabei genügt es, den ersten Summanden herzuleiten, da der zweite 
Summand aufgrund von (6.7) dem transponierten ersten Summanden 
entspricht. 
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Auch der Zusammenhang (6.25) kann mit Hilfe von (6.9), (6.11), (6.13) 
und (6.14) hergeleitet werden: 


T 
Zyoq,por = E{ (m, O m; — Hp © u) (m, O m, — pp O u, ) } 
T 
= Ef (m, © m) (m, om,) - (m, om,) (mp © p) 
T 
— (Hy © m) (m, om,)' + (Hy © m) (Hp © Hr) } (AA) 
= Efm m, } © (E{m,} E{m,}") — (pep ) © (MM) 
T T T T 
= (Zp p + uphp ) © (attr) — (App) © (mm7 ) 
T 
=2,,© (m ) i 
Dabei genügt es, den ersten Summanden herzuleiten, da der zweite 
Summand aufgrund von (6.7) dem transponierten ersten Summanden 
entspricht. 

Die Zusammenhänge (6.30) und (6.31) können gemeinsam hergeleitet 
werden, da (6.30) ein Spezialfall von (6.31) mit m, = 1 ist (vgl. (A.3) und 
(A.4), wo dies für das GBM ausführlich durchgeführt wird). Auch hier 
gentigt es, den ersten Summanden herzuleiten, da der zweite Summand 
aufgrund von (6.7) dem transponierten ersten Summanden entspricht. 
Der Zusammenhang (6.31) kann mit Hilfe von (6.9), (6.11), (6.13), (6.14), 
(6.15) und (6.16) hergeleitet werden. Dazu wird zunächst für einen nor- 


malverteilten Zufallsvektor m = m, mit ñ = m — ym der folgende Zusam- 
menhang benötigt: 


E{(mom)m'} = E{((f + pm) © (f + pm)) (H+ Hn) } 
= E{ (ñ © ñ + 2M © ym + Hm © Hm) (t+ Hm) T) 
= E{(@ © m) M" + (ñ O ñ) pa +2 (Ñ O ym) Ü" + 2 (TO Hm) Pn 
+ (Hm © Hm) HT + (Hm © Hm) Hm} 

= E{(ho m) m" } + El © M) py +2 E{0"} O (py 1)" 

+ 2 (E{M} © pm) Hn + (Hm © Hm) EÑ) T + (Mm © tm) Pon 

= Eim © ñ) pm + 2E {ri} © (pm 1)" + (Hm © Hm) Hm 

= d (Emm) Hm + 2 Emm © (Um) + (Hm © Hm) Ha - 


(A.5) 
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Die Herleitung des Zusammenhangs (6.31) ist schließlich: 


Zyop,pog = B{ (m, Om, ) (m, om,)'} —E{m, om,}(p, © Hq) 
=E{(m, o m) mp} © (147) - (m © Hy) (Hy On). 
— 4 (Epp) (Hy 0m) 
=4(E,») (m, © m) +22, © (mg) + (Hp © Hp) (Hp © m) 
- (Hy © Hy) (Hy © m) -d(2pp) (Hp © Ha) 
= 22,0 (upr) - 
(A.6) 
Der Zusammenhang (6.32) kann mit Hilfe von (6.9), (6.11), (6.13), (6.14), 
(6.15) und (6.16) hergeleitet werden. Dazu wird zunächst für einen nor- 
malverteilten Zufallsvektorm = m, mitm = m — yp der folgende Zusam- 
menhang benötigt (zu Gunsten der Lesbarkeit gilt hier p = Mn): 
E{(m © m) (mo m)'} 
= E{((m +p) © (+ p)) (ñ+ y) © (ñ+ p))"} 
=E{(hom+2mOpn+pOp) (HOM+2MOpn+pOH)'} 
=Elmom (ño m)'+2(HO Mm) (mon) + (ño ñ) (HOH)! 
+2(mO p)(mM@Om)'+4(mMOp)(MOp)'+2(HOp) (HOH)? 
u) + (HOH) (HOH)} 
Jo (1n") 
+ E{m © mh} non)" + 2E{m (mo m)™} o (p17) 
+ 4E{mm'} © (up!) +2 (Et) 1") © (y (o p)") 
+ (non)Emom!+2((non)n')o (1EM}T) 
+ (HOH) (HOH)" 
d (Zm m)d (Em a + 220m © Emm + d (Em m) (HOP)! 
+42 qq 0 (mu) + (HOn)d (Zam)! + (ow) mon)" 


+ (HOM) Hom!+2(noyn)(mo 
=Elmom (mom'}+2Elmomm' 


(A7) 
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A Herleitung: Stochastische Mischmodelle 


Die Herleitung des Zusammenhangs (6.32) ist schließlich (zu Gunsten 
der Lesbarkeit gelten hier m = m,, p = pp, und Z = &,, p): 


x = E{(mo m) (m © m)"} — E{m © m} E{m © m}" 


pop,pop 
= E{(m © m) (m©m)"} — (pO p + d(£)) (p © u + d(2))" 
= d(Z)d(Z)7+2LOL4+d(Z) (pop) +420 (un!) 
+(wop)d(Z)" + (won) (nop) - (nop) (nop) 
- (pO p) d (£) — d (£) (p O p)" — d (£) d (a)! 
=2L0L+4Lo(mn'). 


(A.8) 
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B Weitere Ergebnisse 


Dieser Anhang enthält zusätzliche Ergebnisse bzw. Ergebnisse in einer 
anderen Darstellungsform als der Hauptteil dieser Arbeit. Dabei versteht 
sich dieser Anhang als Nachschlagewerk, auf das an den entsprechen- 
den Stellen des Hauptteils verwiesen wird. Im Abschnitt B.1 werden 
die Ergebnisse der spektralen Entmischung für jeweils eine Anteilsstufe 
dargestellt. Dabei werden in je einem Schaubild die Box-Plots aller Ver- 
fahren der Datenerzeugung bzw. aller Verfahren der Datenerweiterung 
dargestellt. In Abschnitt B.2 folgt eine Darstellung des Gütemaßes erıs£ 
ausgewählter Verfahren in Form von Histogrammen, sodass ein genaue- 
rer Eindruck über die Verteilung gewonnen werden kann. Danach in 
Abschnitt B.3 sind die Nichtlinearitätskoeffizienten aufgelistet, die sich 
für die modellbasierte Datenerzeugung mit dem GBM und dem LOM 
ergeben haben. Zuletzt in Abschnitt B.4 folgen Beispielspektren, die mit 
den vorgestellten Verfahren erzeugt worden sind. 


B.1 Ergebnisse der spektralen Entmischung im 
Vergleich 


In diesem Abschnitt werden die Ergebnisse der spektralen Entmischung 
aus Abschnitt 8.3 zur besseren Vergleichbarkeit für eine Anteilsstufe 
je Datensatz dargestellt. Dabei wird immer die zweitkleinste geteste- 
te Anteilsstufe genutzt, da bei dieser keine nennenswerten Ausreißer 
auftreten. 
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B Weitere Ergebnisse 
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Abbildung B.1 Darstellung von erusz als Box-Plots für den Datensatz Xos. Datenerzeu- 
gung mit Anteilsstufe 5 = + 
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Abbildung B.2 Darstellung von ers: als Box-Plots für den Datensatz Xoz. Datenaugmen- 


tierung mit Anteilsstufe ó = = Box-Plots fiir ELMM sind vollstandig in Abbildung B.1 
zu sehen und dienen hier nur der Orientierung. 
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B.1 Ergebnisse der spektralen Entmischung im Vergleich 
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Abbildung B.3 Darstellung von erusz als Box-Plots für den Datensatz Xo4. Datenerzeu- 
gung mit Anteilsstufe 5 = =: 
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Abbildung B.4 Darstellung von erusz als Box-Plots für den Datensatz Xo4. Datenaug- 


mentierung mit Anteilsstufe 5 = +. Box-Plots für ELMM sind vollständig in Abbildung B.3 
zu sehen und dienen hier nur der Orientierung. 
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Hl Reflektanz EEE Albedo 


Abbildung B.5 Darstellung von erusz als Box-Plots für den Datensatz Ar4. Datenerzeu- 
gung mit Anteilsstufe 5 = 2 
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Abbildung B.6 Darstellung von erusr als Box-Plots für den Datensatz Xp4. Datenaug- 


mentierung mit Anteilsstufe 5 = E. Box-Plots für ELMM sind vollständig in Abbildung B.5 
zu sehen und dienen hier nur der Orientierung. 
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B.2 Histogramme der spektralen Entmischung 


B.2 Histogramme der spektralen Entmischung 
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Abbildung B.7 Darstellung von égysp als Histogramm mit 81 Intervallen für den Da- 
tensatz Xos. Vergleich von Datenaugmentierung und Erzeugung in der Albedo-Domäne 
für Schrittweite & = + 


70. Zur besseren Vergleichbarkeit sind die Histogramme als Linien 
dargestellt. 
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Abbildung B.8 Darstellung von erysr als Histogramm mit 81 Intervallen für den Da- 
tensatz Xo4. Vergleich von Datenaugmentierung und Erzeugung in der Albedo-Domäne 


für Schrittweite 5 = 2. Zur besseren Vergleichbarkeit sind die Histogramme als Linien 
dargestellt. 
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B Weitere Ergebnisse 
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Abbildung B.9 Darstellung von erusg als Histogramm mit 81 Intervallen fiir den Da- 
tensatz Xp4. Vergleich von Datenaugmentierung und Erzeugung in der Albedo-Domäne 
für Schrittweite S = + 


3. Zur besseren Vergleichbarkeit sind die Histogramme als Linien 
dargestellt. 


B.3 Nichtlinearitatskoeffizienten 


Tabelle B.1 Nichtlinearitätskoeffizienten y (GBM) bzw. ô (LQM) für den Datensatz Xos- 


Anteilsstufe 
Verfahren ermittelt bei : ; 5 x 
ZR-GBM ne =i = a m 
NZ-GBM a 2 ee we i 
ren 
NZLOM Tet as 0042 0038 0048 
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B.3 Nichtlinearitätskoeffizienten 


Anteilsstufe 
Verfahren ermittelt bei L 5 5 E 
AN See — 12 iby ie 
NZ-GBM  )aidierung = e 5 ee 
ZRLOM tet 018 0012 0016 020 
NZLOM u go18 0026 00240018 


Anteilsstufe 
Verfahren ermittelt bei L š ; 5 
ZR-GBM eee = a > 2 
NZ-GBM es n > shi = 
ZUM ee a hoes a 
NZLOM oa 0,080 0076 0,068 


Tabelle B.2 Nichtlinearitätskoeffizienten y (GBM) bzw. ô (LQM) für den Datensatz Xga- 


Tabelle B.3 Nichtlinearitätskoeffizienten y (GBM) bzw. ô (LQM) für den Datensatz Ara: 
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B Weitere Ergebnisse 


B.4 Beispiele für erzeugte Spektren 


Original (Testdatensatz) GCNN 


GCNN-2 GCNN-Cov 
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Abbildung B.10 Beispiele für mit unterschiedlichen Verfahren und dem Anteilsvektor a = 
[0,375 ;0,625 ;0]7 generierte Spektren des Datensatzes Xos- Zu Gunsten der Lesbarkeit 
wird auf eine Achsenbeschriftung verzichtet. Die Achsen sind in allen Bildern gleich skaliert 
und die relative Reflektanz ist über der Wellenlänge von 450 nm bis 810 nm aufgetragen. 
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B.4 Beispiele für erzeugte Spektren 
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Abbildung B.11 Beispiele für mit unterschiedlichen Verfahren und dem Anteilsvektor a = 
[0,2;0,2;0,4;0,2 ]T generierte Spektren des Datensatzes Xos- Zu Gunsten der Lesbarkeit 
wird auf eine Achsenbeschriftung verzichtet. Die Achsen sind in allen Bildern gleich skaliert 
und die relative Reflektanz ist über der Wellenlänge von 450 nm bis 810 nm aufgetragen. 
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